Verizon如何利用R语言分析数据泄露事故

【.com 快译】下图为攻击者侵入系统到企业实际发现数据泄露状况之间的间隔时长,数据图形由R软件包ggplot2生成。

资深科学家Bob Rudis将《Verizon数据泄露报告》称为“写给R语言的情书”。

对20万条记录进行分析似乎还不算是什么了不得的大工程,但如果记录所包含的是安全事件,那么每一条都可能包含有数以百计的属性,而每条属性——包括不良行为者、资产影响以及组织类型等等——都会让工作变得更加复杂,特别是对于单纯的Excel电子表格而言。因此,在本次的Verizon年度安全报告当中,电信巨头首先决定采取由R语言生成的“全面”统计图表来取代原本的Excel表格。

事实上,《Verizon数据泄露报告》在一定程度上可以算是“写给R语言的情书”,Verizon公司企业解决方案资深数据科学家兼常务主管Bob Rudis在日前于波士顿召开的EARL(即R语言有效应用)大会上指出。

R语言“在使用过程中确实乐趣满满,”他指出。

作为转换过程中的重要问题之一,由电子表格向R的变更将带来相当复杂的数据格式转变。Verizon公司的研究人员利用嵌套JSON的方式从各组织机构获取安全事件数据,这意味着各匿名数据类别之内还存在大量子类。很明显,以Excel方式对其进行导入以及分析几乎是件不可能完成的任务。

而使用R语言还将带来其它一些助益,Rudis表示。由于R语言的ggplot2软件包能够生成极为精细且可达出版质量水平的图像,Verizon公司得以摆脱对外部图形设计企业的依赖,从而节约下15000美元到20000美元支出。与此前方式相比,利用R语言创建而成的图像只会带来惟一一种区别——即对字体进行重新整理。“R语言在处理字体方面确实比较捉急,”Rudis坦言。

不过R语言在建模、聚类以及其它统计分析工作当中拥有着大量出色的工具,能够帮助Verizon公司在单纯的计数之外实现更多复杂的功能——例如根据不同组织机构类型检测攻击者的可能活动。即使是在金融服务范畴之内,他指出安全威胁的类型也会有所区别,例如银行业与金融业之间也存在明显差异。

该报告小组还利用R语言创建出各类具备交互性的可视化成果,例如查看哪些其它行业中存在类似的威胁状况。

Verizon公司使用的安全数据格式为开源的VERIS,即事件记录与事故共享词表(Vocabulary for Event Recording and Incident Sharing)。对于那些希望对已公开安全泄露数据进行分析的用户,VERIS Community Database能够帮大家满足需求,而名为verisr的R软件包能够轻松处理这类数据。Rudis与Jay Jacobs还联名撰写了一部论著,《数据驱动型安全》,其中详尽描述了如何使用VERIS模式及R语言记录并分析安全事故。

Verizon公司在报告当中分析的数据总量远多于目前公开数据库当中的可用数量,其中甚至包括一部分来自美国特勤局以及FBI等机构的数据,Rudis指出。

而在利用R语言进行数据分析的过程当中,Rudis总结出了以下经验:

·使用R Markdown将解释文本与分析及图像关联起来。R Markdown“能够让文件记录、迭代、修改以及共享分析结果等工作变得超乎想象的简单,”Rudis强调称。

·“将一切整理进软件包当中,”甚至包括不打算与外部人士共享的内部分析代码。这能够显著降低文件记录功能的实现难度,允许他人更轻松地检查我们的分析结果。

·Version公司利用git等机制进行版本控制,将其作为“一切的实现基础。”

该项目当中还提供其它一系列开源工具,包括利用GitLab进行内部协作开发、利用Slack进行协作; Rudis还特地编写了一款名为slackr的R软件包,旨在降低由R直接向Slack发送分析结果的难度。

其它相关工具:SurveyGizmo与Room.co实现安全视频聊天; 之所以没有选择谷歌Hangouts,是因为谷歌方面会记录这些会话内容,他解释道。而GPG Suite则负责进行通信内容加密,RStudio用于同R语言环境对接。

Rudis在EARL波士顿大会上的演示材料已经公开,感兴趣的朋友可以点击此处查看。

原文标题:How Verizon analyzes security-breach data with R

【译稿,合作站点转载请注明原文译者和出处为.com】

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/150165.html<

(0)
运维的头像运维
上一篇2025-03-12 23:08
下一篇 2025-03-12 23:09

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注