2000万恶意软件样本公开发布

2000万恶意软件样本公开发布

恶意软件

3年前

12月14日，网络安全公司Sophos和ReversingLabs联合发布生产级恶意软件研究数据库，可供构建有效防御，驱动业内安全检测与响应发展。

如名称所示，SoReL-20M（Sophos-ReversingLabs - 20 Million）是包含2000万Windows可移植可执行（.PE）文件元数据、标签和特征的数据集，其中包括1000万去除攻击载荷的恶意软件样本，旨在帮助设计机器学习方法以产出更好的恶意软件检测功能。

Sophos AI团队表示：“公开网络威胁信息，网络安全就更容易预测。防御者将能够预测攻击者打算做什么，从而做出更好的应对准备。”

在SoReL-20M数据上训练出的一套PyTorch和LightGBM机器学习模型也随同发布。

由于包含个人可识别信息、敏感网络基础设施数据和私有知识产权，而且还有向未知第三方提供恶意软件的风险，网络安全专用标准化标记数据集十分难以获取，不像自然语言处理和图形图像处理等其他领域那样可以广泛利用MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet等公开数据集。

图：恶意软件类型

尽管2018年发布了EMBER（Endgame Malware BEnchmark for Research）开源恶意软件分类器，但由于其样本规模较小（110万个样本），且数据集仅有单标签（良性/恶意），能用该分类器进行的实验很有限。

SoReL-20M旨在以2000万PE样本解决上述问题，这些样本中包括1000万卸载了攻击载荷的恶意软件样本（不可执行），以及从1000万良性样本中提取出来的特征和元数据。

此外，该方法利用基于深度学习的标记模型，可产生人类能理解的语义描述，具体描述所涉样本的重要属性。

SoReL-20M的发布遵循最近几个月推出的类似倡议，其中包括微软主导的一个联盟，该联盟在10月发布了对抗性机器学习威胁矩阵（Adversarial ML Threat Matrix），旨在帮助安全分析师检测、响应和修复针对机器学习系统的对抗性攻击。

ReversingLabs的研究人员称：“安全威胁情报共享的想法早已有之，但过去几年里恶意黑客所展现出的创新能力，让这种想法变得比以往任何时候都来得更加重要。机器学习和人工智能已成为威胁猎手和安全运营中心（SOC）团队超越特征码和启发式方法的关键，能够令他们更加主动地检测新型或针对性恶意软件。”

关键词：SoReL-20M；恶意软件样本

热门文章

9天前

市场安全能力图谱

报告发布｜数世咨询：中国数字安全产业年度报告2023（全文发布）
29天前

新闻

打通AI应用最后一公里 | 赛宁AI大模型系列产品重磅发布，让用户会用、好用、放心用大模型
17天前

新闻

悬镜安全持续霸榜安全牛《中国网络安全全景图》供应链安全赛道
21天前

业界

安全行业活动全览（2024年3月）附4月活动预告
8天前

市场安全能力图谱

报告发布｜数世咨询：中国数字安全产业统计与分析报告2022（全文发布）

调研报告

10月前

新闻

数世咨询：《中国数字安全百强报告(2023)》正式发布
2月前

市场攻防

报告发布｜数世咨询能力指南 - NDR
3月前

攻防

数世咨询：《2023年数字安全大事记》发布（上）
4月前

攻防

数世咨询《现代WAF市场指南》发布
5月前

安全能力图谱

报告发布 | 数世咨询能力指南 - 持续评估定义安全运营（附PDF下载）

国内数字化领域独立的第三方服务机构，提供数字安全行业的调查、研究与咨询服务。

文章分类: 攻与防; 观点观察; 行业动态; 调研报告; 安全资讯; 数据泄露

联系我们: 地址：北京市东城区鲜鱼口街90-2号网安小酒馆; 联系邮箱：dw@dwcon.cn

扫码关注

数世咨询公众号

Copyright © 2020 - 2023 京ICP证030173号