community-suspicious-samples
收藏数据集概述
基本信息
- 数据集名称: Community Malware Samples (Community Suspicious Samples Dataset)
- 发布者: Grupo de Robótica de la Universidad de León
- 发布日期: 2026年
- 许可协议: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
- 语言: 英语
- 数据规模: 1<n<100 (样本数量在1到100之间)
- 标签: malware, analysis, trojan, ransomware, cape, spyware, cryptojacking, keyloggers, RATs, APTs, static, dynamic
项目背景
本数据集是“ULE-CIBERLAB项目:为国家企业结构进行网络安全知识转移”的一部分,该项目由欧盟NextGeneration-EU、复苏、转型和韧性计划通过INCIBE资助。
内容描述
本数据集汇集了从Ciberlab Web社区上传内容中提取的**.exe样本**,包含以下内容:
- 二进制可执行文件(
.exe) - 由CAPEv2生成的
report.json报告 - CAPEv2生成的报告的HTML版本(
report.html) - CAPE在分析过程中捕获的屏幕截图
- 动态执行期间丢弃的文件(如果有)
数据集结构
数据集根目录结构如下:
dataset/ ├── JSON/ │ └── <md5>.json ├── HTML/ │ └── <md5>.html ├── screenshots/ │ └── <md5>/ │ └── md5.zip ├── binaries/ │ └── <md5> | ├── <md5>.exe │ └── LICENSE.MD └── dropped_files/ └── <md5>/ └── md5.zip
文件描述与格式
binaries/<md5>/<md5>.exe: 原始可执行文件的副本。JSON/<md5>.json: CAPEv2分析的JSON输出,包含元数据、进程、丢弃文件、网络活动、签名等信息。HTML/<md5>.html: CAPEv2生成的报告的HTML版本。screenshots/<md5>/*.png: 动态执行期间捕获的屏幕截图。dropped_files/<md5>/*: 恶意软件在沙箱内执行期间留在磁盘上的文件。
CAPEv2沙箱配置
为分析具有规避能力的样本,对生成此数据集时使用的CAPEv2沙箱配置进行了调整。为便于实验复现,存储库中包含所使用的配置文件(CAPEv2 conf/文件夹)和自定义KVM虚拟机XML。
配置结构如下:
CAPEv2 Configuration/ ├── XML KVM/ │ └── xml-custom-machine.xml └── conf/ └── ...
来源与归属
本存储库中存在的所有样本均由社区接收。用户可通过Ciberlab Web Upload Samples Form提交并分析自己的样本。
引用方式
Bayón-Martínez, R., & Prieto-González, A. (2026). Community Malware Samples Dataset [Data set]. Grupo de Robótica de la Universidad de León. Hugging Face.
https://huggingface.co/datasets/unileon-robotics/community-suspicious-samples
许可协议: Creative Commons BY-NC-SA 4.0.
联系方式
- Raúl Bayón Martínez: 莱昂大学博士研究生/研究人员,邮箱:rbaym@unileon.es
- Adrián Prieto González: 莱昂大学研究人员,邮箱:aprig@unileon.es
重要声明
- 本存储库可能包含可执行的恶意软件真实样本(
.exe)及其在CAPEv2沙箱中执行的相关产物(JSON/HTML报告、屏幕截图、丢弃文件)。 - 请勿在生产机器或非隔离环境中执行任何二进制文件。
- 本数据集仅供研究目的创建。创建者不承担第三方使用该数据集的责任。




