Verizon如何利用R语言分析数据泄露事故

【.com 快译】下图为攻击者侵入系统到企业实际发现数据泄露状况之间的间隔时长,数据图形由R软件包ggplot2生成。

资深科学家Bob Rudis将《Verizon数据泄露报告》称为“写给R语言的情书”。

对20万条记录进行分析似乎还不算是什么了不得的大工程,但如果记录所包含的是安全事件,那么每一条都可能包含有数以百计的属性,而每条属性——包括不良行为者、资产影响以及组织类型等等——都会让工作变得更加复杂,特别是对于单纯的Excel电子表格而言。因此,在本次的Verizon年度安全报告当中,电信巨头首先决定采取由R语言生成的“全面”统计图表来取代原本的Excel表格。

事实上,《Verizon数据泄露报告》在一定程度上可以算是“写给R语言的情书”,Verizon公司企业解决方案资深数据科学家兼常务主管Bob Rudis在日前于波士顿召开的EARL(即R语言有效应用)大会上指出。

R语言“在使用过程中确实乐趣满满,”他指出。

作为转换过程中的重要问题之一,由电子表格向R的变更将带来相当复杂的数据格式转变。Verizon公司的研究人员利用嵌套JSON的方式从各组织机构获取安全事件数据,这意味着各匿名数据类别之内还存在大量子类。很明显,以Excel方式对其进行导入以及分析几乎是件不可能完成的任务。

而使用R语言还将带来其它一些助益,Rudis表示。由于R语言的ggplot2软件包能够生成极为精细且可达出版质量水平的图像,Verizon公司得以摆脱对外部图形设计企业的依赖,从而节约下15000美元到20000美元支出。与此前方式相比,利用R语言创建而成的图像只会带来惟一一种区别——即对字体进行重新整理。“R语言在处理字体方面确实比较捉急,”Rudis坦言。

不过R语言在建模、聚类以及其它统计分析工作当中拥有着大量出色的工具,能够帮助Verizon公司在单纯的计数之外实现更多复杂的功能——例如根据不同组织机构类型检测攻击者的可能活动。即使是在金融服务范畴之内,他指出安全威胁的类型也会有所区别,例如银行业与金融业之间也存在明显差异。

该报告小组还利用R语言创建出各类具备交互性的可视化成果,例如查看哪些其它行业中存在类似的威胁状况。

Verizon公司使用的安全数据格式为开源的VERIS,即事件记录与事故共享词表(Vocabulary for Event Recording and Incident Sharing)。对于那些希望对已公开安全泄露数据进行分析的用户,VERIS Community Database能够帮大家满足需求,而名为verisr的R软件包能够轻松处理这类数据。Rudis与Jay Jacobs还联名撰写了一部论著,《数据驱动型安全》,其中详尽描述了如何使用VERIS模式及R语言记录并分析安全事故。

Verizon公司在报告当中分析的数据总量远多于目前公开数据库当中的可用数量,其中甚至包括一部分来自美国特勤局以及FBI等机构的数据,Rudis指出。

而在利用R语言进行数据分析的过程当中,Rudis总结出了以下经验:

·使用R Markdown将解释文本与分析及图像关联起来。R Markdown“能够让文件记录、迭代、修改以及共享分析结果等工作变得超乎想象的简单,”Rudis强调称。

·“将一切整理进软件包当中,”甚至包括不打算与外部人士共享的内部分析代码。这能够显著降低文件记录功能的实现难度,允许他人更轻松地检查我们的分析结果。

·Version公司利用git等机制进行版本控制,将其作为“一切的实现基础。”

该项目当中还提供其它一系列开源工具,包括利用GitLab进行内部协作开发、利用Slack进行协作; Rudis还特地编写了一款名为slackr的R软件包,旨在降低由R直接向Slack发送分析结果的难度。

其它相关工具:SurveyGizmo与Room.co实现安全视频聊天; 之所以没有选择谷歌Hangouts,是因为谷歌方面会记录这些会话内容,他解释道。而GPG Suite则负责进行通信内容加密,RStudio用于同R语言环境对接。

Rudis在EARL波士顿大会上的演示材料已经公开,感兴趣的朋友可以点击此处查看。

原文标题:How Verizon analyzes security-breach data with R

【译稿,合作站点转载请注明原文译者和出处为.com】

文章来源网络,作者:管理,如若转载,请注明出处:https://shuyeidc.com/wp/150165.html<

(0)
管理的头像管理
上一篇2025-03-12 23:08
下一篇 2025-03-12 23:09

相关推荐

  • 云服务器和云虚拟主机怎么选?云服务器和虚拟主机区别

    云服务器适合业务增长快、需弹性扩展的场景,而云虚拟主机适合预算有限、技术门槛低的小型静态网站或测试环境,二者核心区别在于资源独享性与运维复杂度,核心差异解析:从底层架构到使用体验很多人容易混淆这两者,觉得它们都是“买空间建站”,它们的底层逻辑完全不同,云服务器(ECS)就像是你租了一整栋别墅,水电网络独立,你想……

    2026-06-29
    0
  • 赣州智慧旅游招聘是真的吗?赣州旅游人才招聘信息

    中级岗位(3-5年经验)月薪范围通常在6000-10000元,这类岗位需要独立负责项目模块,如独立运营一个抖音账号,或维护一个景区小程序的功能迭代,具备成功案例的候选人议价能力较强,高级岗位(5年以上经验)月薪范围通常在10000-20000元,部分核心管理岗可达更高,这类人才需要具备战略规划能力,如制定整个景……

    2026-06-29
    0
  • 赣州智能物联网车位锁如何管理?智能车位锁管理系统多少钱

    赣州智能物联网车位锁管理的核心在于通过云端平台实现远程控锁、状态实时监控及自动计费,彻底解决传统车位“被占难管”与“找位难”的痛点,在赣州这样的城市,随着机动车保有量的持续增长,老旧小区、商业综合体以及私人固定车位的资源矛盾日益凸显,传统的机械地锁或简易遥控锁,不仅操作繁琐,更无法实现数据化管理,引入智能物联网……

    2026-06-29
    0
  • 赣州智能消防栓好用吗,智能消防栓多少钱一个

    赣州智能消防栓通过物联网技术实现实时监测与远程报警,能显著降低火灾响应时间并提升城市消防安全管理水平,是目前智慧城市建设中不可或缺的基础设施,赣州智能消防栓的核心价值与应用场景传统消防栓往往存在“看不见、摸不着、用不了”的痛点,在赣州这样地形复杂、老城区与新城区并存的区域,传统设施的管理难度极大,智能消防栓的出……

    2026-06-29
    0
  • 云服务器和物理机到底有啥区别?

    云服务器本质上是虚拟化资源池中的弹性实例,而传统物理服务器是独占的硬件实体,前者胜在弹性与运维便捷,后者强在物理隔离与性能稳定,具体选择取决于业务对成本、扩展性及安全合规的权衡,很多人初次接触服务器时,容易把“云服务器”和“传统物理服务器”混为一谈,觉得它们都是用来跑网站或存数据的盒子,这两者的底层逻辑完全不同……

    2026-06-29
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注