community-suspicious-samples

Hugging Face2026-01-22 更新2026-01-23 收录

下载链接：

https://huggingface.co/datasets/unileon-robotics/community-suspicious-samples

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从社区上传中提取的.exe样本，以及由CAPEv2生成的报告、HTML报告、分析过程中截取的屏幕截图和动态执行期间丢弃的文件。数据集结构包括二进制文件、JSON和HTML报告、屏幕截图和丢弃文件的目录。所有样本均来自社区上传，仅供研究使用。

创建时间：

2026-01-15

原始信息汇总

数据集概述

基本信息

数据集名称: Community Malware Samples (Community Suspicious Samples Dataset)
发布者: Grupo de Robótica de la Universidad de León
发布日期: 2026年
许可协议: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
语言: 英语
数据规模: 1<n<100 (样本数量在1到100之间)
标签: malware, analysis, trojan, ransomware, cape, spyware, cryptojacking, keyloggers, RATs, APTs, static, dynamic

项目背景

本数据集是“ULE-CIBERLAB项目：为国家企业结构进行网络安全知识转移”的一部分，该项目由欧盟NextGeneration-EU、复苏、转型和韧性计划通过INCIBE资助。

内容描述

本数据集汇集了从Ciberlab Web社区上传内容中提取的**.exe样本**，包含以下内容：

二进制可执行文件（.exe）
由CAPEv2生成的report.json报告
CAPEv2生成的报告的HTML版本（report.html）
CAPE在分析过程中捕获的屏幕截图
动态执行期间丢弃的文件（如果有）

数据集结构

数据集根目录结构如下：

dataset/ ├── JSON/ │ └── <md5>.json ├── HTML/ │ └── <md5>.html ├── screenshots/ │ └── <md5>/ │ └── md5.zip ├── binaries/ │ └── <md5> | ├── <md5>.exe │ └── LICENSE.MD └── dropped_files/ └── <md5>/ └── md5.zip

文件描述与格式

binaries/<md5>/<md5>.exe: 原始可执行文件的副本。
JSON/<md5>.json: CAPEv2分析的JSON输出，包含元数据、进程、丢弃文件、网络活动、签名等信息。
HTML/<md5>.html: CAPEv2生成的报告的HTML版本。
screenshots/<md5>/*.png: 动态执行期间捕获的屏幕截图。
dropped_files/<md5>/*: 恶意软件在沙箱内执行期间留在磁盘上的文件。

CAPEv2沙箱配置

为分析具有规避能力的样本，对生成此数据集时使用的CAPEv2沙箱配置进行了调整。为便于实验复现，存储库中包含所使用的配置文件（CAPEv2 conf/文件夹）和自定义KVM虚拟机XML。配置结构如下：

CAPEv2 Configuration/ ├── XML KVM/ │ └── xml-custom-machine.xml └── conf/ └── ...

来源与归属

本存储库中存在的所有样本均由社区接收。用户可通过Ciberlab Web Upload Samples Form提交并分析自己的样本。

引用方式

Bayón-Martínez, R., & Prieto-González, A. (2026). Community Malware Samples Dataset [Data set]. Grupo de Robótica de la Universidad de León. Hugging Face.
https://huggingface.co/datasets/unileon-robotics/community-suspicious-samples
许可协议: Creative Commons BY-NC-SA 4.0.

联系方式

Raúl Bayón Martínez: 莱昂大学博士研究生/研究人员，邮箱：rbaym@unileon.es
Adrián Prieto González: 莱昂大学研究人员，邮箱：aprig@unileon.es

重要声明

本存储库可能包含可执行的恶意软件真实样本（.exe）及其在CAPEv2沙箱中执行的相关产物（JSON/HTML报告、屏幕截图、丢弃文件）。
请勿在生产机器或非隔离环境中执行任何二进制文件。
本数据集仅供研究目的创建。创建者不承担第三方使用该数据集的责任。

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，恶意软件样本的收集与分析是构建有效防御体系的基础。该数据集依托ULE-CIBERLAB项目，通过社区上传机制汇集了多样化的恶意软件样本。每个样本均包含原始可执行文件（.exe）以及由CAPEv2沙箱生成的静态与动态分析报告，涵盖JSON格式的详细元数据、HTML可视化报告、执行过程中的屏幕截图以及可能产生的丢弃文件。所有样本均以MD5哈希值命名并分类存储，确保了数据的完整性与可追溯性。

使用方法

为安全有效地利用该数据集，研究者应首先在隔离的实验环境中进行操作，避免直接执行样本文件。数据集的使用可围绕恶意软件特征提取、行为模式分析与检测模型训练展开。通过解析JSON报告中的结构化数据，研究者能够获取样本的静态属性与动态行为序列；结合屏幕截图与丢弃文件，可进一步可视化恶意活动的具体表现。数据集附带的CAPEv2配置文件和虚拟机描述符支持复现原始分析环境，为比较性研究与新方法的验证提供了便利。

背景与挑战

背景概述

恶意软件分析作为网络安全领域的核心分支，长期致力于识别、分类与理解各类恶意代码的行为模式与威胁机理。由西班牙莱昂大学机器人研究组主导，并依托欧盟NextGeneration-EU复苏计划资助的ULE-CIBERLAB项目，于2026年正式发布了Community Malware Samples数据集。该数据集汇聚了来自社区提交的真实恶意软件样本，涵盖木马、勒索软件、间谍软件、加密货币劫持、键盘记录器、远程访问工具及高级持续性威胁等多种类型，并配套提供了基于CAPEv2沙箱的动态与静态分析报告、执行截图及衍生文件。其核心研究问题聚焦于通过公开、结构化的恶意软件数据资源，促进学术界与工业界在威胁检测、行为分析与防御技术方面的知识转移与协同创新，为恶意软件生态研究提供了宝贵的实证基础。

当前挑战

在恶意软件检测与分类领域，核心挑战在于恶意代码的持续演化与规避技术日益复杂，导致传统特征检测方法失效，亟需基于行为与动态分析的智能模型实现精准识别。Community Malware Samples数据集的构建过程同样面临多重挑战：其一，在数据收集阶段，需确保样本来源的合法性与伦理合规性，同时处理样本的多样性与代表性平衡问题；其二，在动态分析环节，恶意软件常具备反沙箱、环境感知等对抗性机制，要求沙箱配置具备高度的隐蔽性与适应性以捕获真实行为；其三，数据标注与结构化过程中，需整合多模态信息（如二进制文件、JSON报告、可视化截图），并保证元数据的一致性与可追溯性，这对数据集的标准化与可复用性提出了较高要求。

常用场景

经典使用场景

在恶意软件研究领域，该数据集为静态与动态分析提供了丰富的实验材料。研究人员利用其包含的二进制样本、CAPEv2沙箱生成的JSON/HTML报告、执行截图以及投放文件，能够深入探究恶意代码的行为模式与演化特征。这种多模态数据组合使得对特洛伊木马、勒索软件、间谍软件等各类恶意软件的分析更为全面，为构建高效的检测模型奠定了数据基础。

解决学术问题

该数据集有效应对了恶意软件研究中样本稀缺与标注困难的核心挑战。通过社区收集的真实样本及其详细的沙箱分析报告，它支持了恶意软件家族分类、行为特征提取、以及新型威胁发现等关键学术问题的探索。其结构化数据格式促进了自动化分析流程的发展，对推动网络安全领域的实证研究具有显著意义，为理解恶意软件生态提供了可靠的数据支撑。

实际应用

在实际网络安全防御中，该数据集可直接用于训练和验证恶意软件检测系统。安全厂商与研究人员能够基于其中的样本与行为报告，开发更精准的静态签名或动态行为规则。此外，它还可作为威胁情报的来源，帮助分析人员识别攻击活动中的关联样本，提升对高级持续性威胁（APTs）和加密货币劫持等复杂攻击的响应能力。

数据集最近研究