community-malware-samples
收藏社区恶意软件样本数据集概述
数据集基本信息
- 数据集名称:Community Malware Samples
- 发布者:Grupo de Robótica de la Universidad de León
- 发布日期:2026年
- 许可证:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
- 语言:英语
- 规模类别:1<n<100
- 标签:malware, analysis, trojan, ransomware, cape, spyware, cryptojacking, keyloggers, RATs, APTs, static, dynamic
项目背景
本数据集是ULE-CIBERLAB项目的组成部分,该项目旨在向国家企业结构转移网络安全知识,由欧盟NextGeneration-EU、复苏、转型和韧性计划通过INCIBE资助。
数据集描述
本数据集汇集了从社区上传中提取的 .exe样本,来源为Ciberlab Web。数据集包含以下内容:
- 二进制文件(
.exe) - CAPEv2生成的
report.json - CAPEv2生成的报告HTML版本(
report.html) - CAPE在分析过程中捕获的屏幕截图
- 动态执行过程中丢弃的文件(如果有)
数据集结构
数据集根目录结构如下:
dataset/ ├── JSON/ # 包含以MD5命名的JSON报告文件 ├── HTML/ # 包含以MD5命名的HTML报告文件 ├── screenshots/ # 包含以样本MD5命名的子目录,内含截图压缩包 ├── binaries/ # 包含以样本MD5命名的子目录,内含可执行文件及可能的许可证文件 └── dropped_files/ # 包含以样本MD5命名的子目录,内含丢弃文件的压缩包
文件描述与格式
binaries/<md5>/<md5>.exe:原始可执行文件的副本。请勿在非受控计算机上执行。JSON/<md5>.json:CAPEv2分析的JSON输出,包含元数据、进程、丢弃文件、网络活动、签名等信息。HTML/<md5>.html:CAPEv2生成的报告的HTML版本。screenshots/<md5>/*.png:动态执行期间捕获的屏幕截图。dropped_files/<md5>/*:恶意软件在沙箱内执行期间留在磁盘上的文件。
CAPEv2沙箱配置
为分析具有规避能力的样本,生成此数据集时对CAPEv2沙箱配置进行了调整。为便于实验复现,存储库中包含了所使用的配置文件(CAPEv2 conf/文件夹)和自定义KVM虚拟机XML。
配置部分包含以下结构:
CAPEv2 Configuration/ ├── XML KVM/ # 包含虚拟机的XML描述符文件 └── conf/ # 实验使用的CAPEv2配置文件夹副本
来源与归属
本存储库中的所有样本均来自社区提交。用户可通过Ciberlab Web上传样本表单提交并分析自己的样本。
引用方式
若在研究或项目中使用此数据集,请按以下格式引用:
Bayón-Martínez, R., & Prieto-González, A. (2026). Community Malware Samples Dataset [Data set]. Grupo de Robótica de la Universidad de León. Hugging Face.
https://huggingface.co/datasets/unileon-robotics/community-malware-samples
许可证: Creative Commons BY-NC-SA 4.0.
联系方式
- Raúl Bayón Martínez:莱昂大学博士研究生/研究人员,邮箱:rbaym@unileon.es
- Adrián Prieto González:莱昂大学研究人员,邮箱:aprig@unileon.es
重要声明
本存储库包含真实的恶意软件样本(可执行的.exe文件)及其在CAPEv2沙箱中执行的产物(JSON/HTML报告、屏幕截图、丢弃文件)。请勿在生产机器或非隔离环境中执行任何二进制文件。本数据集仅用于研究目的。创建者不承担第三方使用该数据集的责任。




