community-malware-samples

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/unileon-robotics/community-malware-samples

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从社区上传中提取的恶意软件样本，包括二进制文件（.exe）、CAPEv2生成的报告（JSON和HTML格式）、动态执行期间的截图以及恶意软件执行期间丢弃的文件。数据集旨在用于研究目的，使用时需遵守法律和伦理要求。数据集的结构包括JSON、HTML、截图、二进制文件和丢弃文件的目录，每个文件都以MD5哈希值命名。此外，还提供了CAPEv2沙箱的配置信息，以便复现实验。

创建时间：

2026-01-13

原始信息汇总

社区恶意软件样本数据集概述

数据集基本信息

数据集名称：Community Malware Samples
发布者：Grupo de Robótica de la Universidad de León
发布日期：2026年
许可证：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
语言：英语
规模类别：1<n<100
标签：malware, analysis, trojan, ransomware, cape, spyware, cryptojacking, keyloggers, RATs, APTs, static, dynamic

项目背景

本数据集是ULE-CIBERLAB项目的组成部分，该项目旨在向国家企业结构转移网络安全知识，由欧盟NextGeneration-EU、复苏、转型和韧性计划通过INCIBE资助。

数据集描述

本数据集汇集了从社区上传中提取的 .exe样本，来源为Ciberlab Web。数据集包含以下内容：

二进制文件（.exe）
CAPEv2生成的report.json
CAPEv2生成的报告HTML版本（report.html）
CAPE在分析过程中捕获的屏幕截图
动态执行过程中丢弃的文件（如果有）

数据集结构

数据集根目录结构如下：

dataset/ ├── JSON/ # 包含以MD5命名的JSON报告文件 ├── HTML/ # 包含以MD5命名的HTML报告文件 ├── screenshots/ # 包含以样本MD5命名的子目录，内含截图压缩包 ├── binaries/ # 包含以样本MD5命名的子目录，内含可执行文件及可能的许可证文件 └── dropped_files/ # 包含以样本MD5命名的子目录，内含丢弃文件的压缩包

文件描述与格式

binaries/<md5>/<md5>.exe：原始可执行文件的副本。请勿在非受控计算机上执行。
JSON/<md5>.json：CAPEv2分析的JSON输出，包含元数据、进程、丢弃文件、网络活动、签名等信息。
HTML/<md5>.html：CAPEv2生成的报告的HTML版本。
screenshots/<md5>/*.png：动态执行期间捕获的屏幕截图。
dropped_files/<md5>/*：恶意软件在沙箱内执行期间留在磁盘上的文件。

CAPEv2沙箱配置

为分析具有规避能力的样本，生成此数据集时对CAPEv2沙箱配置进行了调整。为便于实验复现，存储库中包含了所使用的配置文件（CAPEv2 conf/文件夹）和自定义KVM虚拟机XML。配置部分包含以下结构：

CAPEv2 Configuration/ ├── XML KVM/ # 包含虚拟机的XML描述符文件 └── conf/ # 实验使用的CAPEv2配置文件夹副本

来源与归属

本存储库中的所有样本均来自社区提交。用户可通过Ciberlab Web上传样本表单提交并分析自己的样本。

引用方式

若在研究或项目中使用此数据集，请按以下格式引用： Bayón-Martínez, R., & Prieto-González, A. (2026). Community Malware Samples Dataset [Data set]. Grupo de Robótica de la Universidad de León. Hugging Face.
https://huggingface.co/datasets/unileon-robotics/community-malware-samples
许可证： Creative Commons BY-NC-SA 4.0.

联系方式

Raúl Bayón Martínez：莱昂大学博士研究生/研究人员，邮箱：rbaym@unileon.es
Adrián Prieto González：莱昂大学研究人员，邮箱：aprig@unileon.es

重要声明

本存储库包含真实的恶意软件样本（可执行的.exe文件）及其在CAPEv2沙箱中执行的产物（JSON/HTML报告、屏幕截图、丢弃文件）。请勿在生产机器或非隔离环境中执行任何二进制文件。本数据集仅用于研究目的。创建者不承担第三方使用该数据集的责任。

搜集汇总

数据集介绍

构建方式

在恶意软件研究领域，构建高质量的数据集对于深入理解恶意行为至关重要。Community Malware Samples数据集通过社区贡献的方式汇集了真实的恶意软件样本，每个样本均包含原始可执行文件以及由CAPEv2沙箱生成的详细分析报告。这些报告以JSON和HTML格式呈现，同时辅以动态执行过程中捕获的屏幕截图和沙箱内产生的衍生文件。数据集的构建严格遵循了安全与伦理规范，所有样本均经过哈希值命名处理，确保了数据的可追溯性与完整性。

使用方法

对于网络安全领域的研究者而言，该数据集为恶意软件检测与行为分析提供了宝贵的资源。使用者可以通过解析JSON报告获取结构化的分析数据，或查阅HTML报告进行可视化审查。屏幕截图和衍生文件则有助于直观理解恶意软件在受控环境中的运行表现。为确保安全，所有二进制文件必须在完全隔离的实验环境中处理，严禁在生产系统或非受控设备上执行。数据集遵循CC BY-NC-SA 4.0许可，适用于学术研究与非商业用途。

背景与挑战

背景概述

恶意软件分析作为网络安全领域的核心议题，其研究依赖于高质量、多样化的真实样本数据。Community Malware Samples数据集由西班牙莱昂大学机器人研究组于2026年创建，主要研究人员包括Raúl Bayón Martínez与Adrián Prieto González。该数据集隶属于欧盟NextGeneration-EU计划资助的ULE-CIBERLAB项目，旨在通过社区贡献的方式收集可执行恶意软件样本及其在CAPEv2沙箱中的动态分析报告。其核心研究问题聚焦于为恶意软件检测、行为分析与威胁情报研究提供结构化、可复现的实证数据基础，对推动恶意软件静态与动态分析技术的演进具有重要价值。

当前挑战

该数据集致力于应对恶意软件检测与分类领域的关键挑战，即如何获取大规模、多样化的真实恶意软件样本及其行为轨迹，以支撑基于机器学习的检测模型训练与评估。在构建过程中，研究团队面临多重技术挑战：一是样本的收集与标注需依赖社区上传，在保证样本多样性的同时需严格遵循法律与伦理规范；二是动态分析环节需在隔离的沙箱环境中安全执行具有规避能力的恶意软件，并完整捕获其进程、网络活动、文件丢弃等行为数据，技术配置复杂且资源消耗显著；三是数据集的长期维护与更新需持续应对新型恶意软件变种的涌现，确保其时效性与研究实用性。

常用场景

经典使用场景

在恶意软件研究领域，该数据集为静态与动态分析提供了丰富的实验材料。研究人员能够利用其包含的二进制样本、CAPEv2沙箱生成的JSON/HTML报告、执行截图以及丢弃文件，深入剖析恶意代码的行为特征与传播机制。这种多模态数据集成方式，使得经典使用场景聚焦于恶意软件家族分类、行为模式识别以及逃避技术检测，为构建自动化分析管道奠定了坚实基础。

解决学术问题

该数据集有效应对了恶意软件研究中样本稀缺与标注不足的挑战，为学术界提供了真实且结构化的恶意软件行为数据。它支持研究者探索恶意软件静态特征与动态行为之间的关联，助力于开发新型检测算法，如基于机器学习的分类模型或异常行为识别系统。其意义在于推动了恶意软件分析从依赖专家经验向数据驱动范式的转变，提升了研究的可复现性与科学性。

实际应用

在实际网络安全防御中，该数据集可用于训练和验证恶意软件检测引擎，增强终端保护与入侵检测系统的能力。安全分析师能够参考其中的沙箱报告与行为日志，快速识别新型威胁并制定响应策略。此外，它也为安全产品开发提供了基准测试环境，帮助评估不同解决方案在应对特洛伊木马、勒索软件、间谍软件等多样化威胁时的效能。

数据集最近研究