five

ransomware-dataset|勒索软件数据集|恶意软件分析数据集

收藏
github2024-03-29 更新2024-05-31 收录
勒索软件
恶意软件分析
下载链接:
https://github.com/undo-ransomware/ransomware-dataset
下载链接
链接失效反馈
资源简介:
我们的勒索软件数据集基于VirusShare收集的3390万个样本。我们使用了John Seymour的数据集,其中包含了从2012年6月到2019年2月的所有3320万个样本的VirusTotal标签。我们下载了原始数据集并筛选出所有ransom检测的样本,然后进一步筛选出Windows可执行文件。最终的339594个样本使用AVClass恶意软件标签工具进行分类,以按家族分组。

Our ransomware dataset is based on 33.9 million samples collected from VirusShare. We utilized John Seymour's dataset, which includes VirusTotal labels for all 33.2 million samples from June 2012 to February 2019. We downloaded the original dataset and filtered out all samples detected as ransomware, then further refined the selection to include only Windows executable files. The final 339,594 samples were classified using the AVClass malware labeling tool to group them by family.
创建时间:
2020-02-28
原始信息汇总

Ransomware samples dataset 概述

数据集来源

  • 基于 VirusShare 的 33.9M 样本集合。
  • 使用 John Seymour 的 dataset,包含 VirusTotal 从 2012 年 6 月至 2019 年 2 月的 33.2M 样本标签。

数据处理

  • 下载原始数据集并筛选出所有 ransom 检测结果,得到 456856 个样本。
  • 进一步筛选出 Windows 可执行文件,使用 VirusShare 的 filetypes 数据集,排除浏览器相关的 HTML 文件。
  • 最终得到 339594 个样本。

样本分类

  • 使用 AVClass malware labeling tool 对样本进行家族分类。
  • 结果包括 23616 个 SINGLETON(仅含通用名称的样本),1562 个单一样本家族,以及 1671 个包含 2 个或以上成员的 ransomware 家族。
  • 排除 SINGLETON 后,基础样本集为 315978 个。

分布情况

  • 呈现典型的长尾分布。
  • 2 个样本的家族中包含了一些知名 ransomware,如 GoldenEye, ZeroLockerBad Rabbit
  • 1 个样本的家族中包含了一些已知的 ransomware,如 Alcatraz Locker

流行 Ransomware

  • 包括 Zeus, Winwebsec, Virlock, ZeroAccess, PornoBlocker 等。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于VirusShare平台上收集的3390万样本,结合了John Seymour提供的VirusTotal标签数据,涵盖了2012年6月至2019年2月期间的3320万样本。通过对原始数据集进行筛选,提取了所有被标记为‘ransom’的样本,共计456856个。进一步利用VirusShare文件类型数据集,筛选出Windows可执行文件,排除了大量基于浏览器的HTML勒索文件,最终得到339594个样本。这些样本通过AVClass恶意软件标签工具进行分类,按家族进行分组,最终形成了包含315978个样本的基础数据集。
特点
该数据集的特点在于其专注于勒索软件样本,涵盖了广泛的家族分类。通过AVClass工具的分类,数据集包含了23616个单一命名的样本(SINGLETONs),1562个仅包含一个样本的家族,以及1671个包含两个或更多样本的勒索软件家族。值得注意的是,尽管许多家族仅包含少量样本,但其中仍包含了一些曾引起广泛关注的勒索软件,如GoldenEye、ZeroLocker和Bad Rabbit。数据集的分布呈现出典型的长尾特征,反映了勒索软件家族的多样性和复杂性。
使用方法
该数据集的使用方法主要包括对勒索软件样本的分析和分类研究。研究人员可以利用该数据集进行勒索软件家族的识别、行为分析以及恶意软件检测算法的开发。通过AVClass工具的分类结果,用户可以快速定位特定家族的样本,进行深入分析。此外,数据集还可用于训练机器学习模型,提升勒索软件的检测和防御能力。使用该数据集时,建议结合其他安全工具和平台,如VirusTotal,以获取更全面的样本信息和检测结果。
背景与挑战
背景概述
ransomware-dataset数据集源于VirusShare平台收集的3390万样本,结合了John Seymour提供的VirusTotal标签数据,时间跨度从2012年6月至2019年2月。该数据集的核心研究问题在于对勒索软件样本的系统化分类与家族识别,旨在为网络安全领域提供详尽的勒索软件分析基础。通过使用AVClass恶意软件标签工具,数据集将样本按家族分类,最终筛选出315,978个有效样本。这一数据集不仅为勒索软件的研究提供了丰富的数据支持,还揭示了勒索软件家族的分布特征,对恶意软件检测与防御策略的优化具有重要影响。
当前挑战
ransomware-dataset在构建过程中面临多重挑战。首先,原始数据集中包含大量非恶意或低威胁的样本,如基于浏览器的HTML勒索文件,需通过文件类型过滤确保数据集的纯净性。其次,勒索软件家族的分类依赖于AVClass工具,但该工具在处理单一样本或通用名称时存在局限性,导致部分样本无法准确归类。此外,勒索软件家族的长尾分布特征使得少数家族占据了大量样本,而多数家族样本稀少,这为数据集的均衡性与代表性带来了挑战。最后,数据集的时效性也是一个关键问题,勒索软件不断演变,现有数据可能无法完全反映最新的威胁态势。
常用场景
经典使用场景
在网络安全领域,ransomware-dataset数据集被广泛用于恶意软件分析和检测算法的开发。研究人员利用该数据集中的勒索软件样本,训练和测试机器学习模型,以提高对新型勒索软件的识别能力。通过分析不同勒索软件家族的行为特征,该数据集为构建高效的恶意软件检测系统提供了坚实的基础。
解决学术问题
ransomware-dataset数据集解决了网络安全研究中勒索软件分类和检测的难题。通过对大量勒索软件样本的标签和家族分类,研究人员能够深入理解勒索软件的演化趋势和传播模式。该数据集为学术界提供了丰富的实验数据,推动了恶意软件检测技术的进步,并为制定有效的防御策略提供了科学依据。
衍生相关工作
ransomware-dataset数据集衍生了许多经典的研究工作,包括基于机器学习的勒索软件检测算法、勒索软件家族演化分析以及勒索软件传播模型的研究。这些工作不仅深化了对勒索软件行为的理解,还为开发更高效的防御工具提供了理论支持。例如,基于该数据集的研究成果已被应用于多个开源和商业安全产品中,显著提升了勒索软件的检测率和响应速度。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

CT-ORG

3D CT, 140 Cases, 6 Categories of Organ Segmentation.

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录