community-benign-samples

Hugging Face2026-01-16 更新2026-01-17 收录

网络安全

恶意软件分析

数据链接：

https://huggingface.co/datasets/unileon-robotics/community-benign-samples 数据链接链接失效反馈

官方服务：

资源简介：

该数据集包含从社区上传中提取的.exe样本，以及由CAPEv2生成的报告、HTML报告、动态执行期间拍摄的截图和动态执行期间丢弃的文件（如果有）。数据集是ULE-CIBERLAB项目的一部分，该项目由欧盟NextGeneration-EU资助，旨在为国家的商业结构提供网络安全知识转移。数据集结构包括binaries、JSON、HTML、screenshots和dropped_files目录，分别存储原始可执行文件、CAPEv2分析的JSON输出、HTML报告、动态执行期间的截图和恶意软件在沙箱执行期间丢弃的文件。数据集的使用需遵循CC-BY-NC-SA 4.0许可。

创建时间：

2026-01-13

原始信息汇总

数据集概述

基本信息

数据集名称: Community Benign Samples
发布者: Grupo de Robótica de la Universidad de León
发布日期: 2026年
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
语言: 英语
标签: benign, cape, analysis
规模类别: 1<n<100

项目背景

本数据集是“ULE-CIBERLAB项目：面向国家商业结构的网络安全知识转移”的一部分。该项目由欧盟NextGeneration-EU、复苏与韧性计划通过INCIBE资助。

数据集描述

本数据集汇集了从Ciberlab Web社区上传中提取的**.exe样本**。每个样本包含以下内容：

原始二进制文件（.exe）
由CAPEv2生成的report.json报告
由CAPEv2生成的report.html报告（HTML版本）
CAPE在分析过程中捕获的屏幕截图
动态执行过程中丢弃的文件（如果有）

数据来源与归属

本存储库中所有样本均来自社区提交。用户可通过Ciberlab Web上传样本表单自由提交并分析自己的样本。

数据集结构

根目录结构如下：

dataset/ ├── JSON/ │ └── <md5>.json ├── HTML/ │ └── <md5>.html ├── screenshots/ │ └── <md5>/ │ └── md5.zip ├── binaries/ │ └── <md5>/ | ├── <md5>.exe │ └── LICENSE.MD └── dropped_files/ └── <md5>/ └── md5.zip

文件描述与格式

binaries/<md5>/<md5>.exe: 原始可执行文件的副本。
JSON/<md5>.json: CAPEv2分析的JSON输出，包含元数据、进程、丢弃文件、网络活动、签名等信息。
HTML/<md5>.html: CAPEv2生成的HTML版本报告。
screenshots/<md5>/*.png: 动态执行过程中捕获的屏幕截图。
dropped_files/<md5>/*: 恶意软件在沙箱执行期间留在磁盘上的文件。

CAPEv2沙箱配置

为分析具有规避能力的样本，对生成此数据集时使用的CAPEv2沙箱配置进行了调整。为支持实验复现，存储库中包含了所使用的配置文件（CAPEv2 conf/文件夹）和自定义KVM虚拟机XML。配置结构如下：

CAPEv2 Configuration/ ├── XML KVM/ │ └── xml-custom-machine.xml └── conf/ └── ...

XML KVM/: 包含虚拟机的XML描述符（建议名称：xml-custom-machine.xml），反映了分析中使用的VM配置（vCPU、内存、虚拟设备、磁盘、模拟NIC等）。
conf/: 实验中CAPEv2使用的conf文件夹副本，包含相关配置文件（路径、超时设置、启用模块、与分析后端集成、网络捕获参数等）。注意：所有敏感数据（凭据、私钥）已被移除。

引用方式

Bayón-Martínez, R., & Prieto-González, A. (2026). Community Benign Samples Dataset [Data set]. Grupo de Robótica de la Universidad de León. Hugging Face.
https://huggingface.co/datasets/unileon-robotics/community-benign-samples
许可证: Creative Commons BY-NC-SA 4.0.

BibTeX引用格式： bibtex @dataset{bayonmartinez_prietogonzalez_2026_community_benign_samples, author = {Bayón-Martínez, Raúl and Prieto-González, Adrian}, title = {Community Benign Samples Dataset}, year = {2026}, publisher = {Grupo de Robótica de la Universidad de León}, howpublished = {url{https://huggingface.co/datasets/unileon-robotics/community-benign-samples}}, note = {Available on Hugging Face. License: CC BY-NC-SA 4.0} }

联系人

Raúl Bayón Martínez: 莱昂大学博士研究生/研究职员。邮箱：rbaym@unileon.es
Adrián Prieto González: 莱昂大学研究职员。邮箱：aprig@unileon.es

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，高质量的数据集对于恶意软件分析至关重要。Community Benign Samples数据集的构建依托于社区驱动的样本收集机制，通过Ciberlab Web平台接收用户上传的可执行文件样本。每个样本均经过CAPEv2沙箱的动态分析，生成包含JSON报告、HTML报告、执行截图以及可能存在的丢弃文件在内的完整分析结果。数据集采用MD5哈希值作为文件命名依据，确保了样本的唯一性与可追溯性，同时提供了详细的沙箱配置信息，便于实验的复现与验证。

使用方法

研究人员可利用该数据集进行恶意软件分类模型的训练与评估，尤其适用于构建区分恶意与良性软件的二元分类器。数据集中的JSON报告包含了丰富的元数据、进程行为、网络活动及安全签名信息，可直接用于特征工程。HTML报告与截图则为行为分析提供了直观的可视化参考。使用前需注意样本的许可证约束，部分二进制文件遵循GPLv3协议。建议在遵循CC BY-NC-SA 4.0许可的前提下，引用提供的BibTeX格式进行学术标注。

背景与挑战

背景概述

在网络安全研究领域，恶意软件分析一直是保障数字环境安全的核心议题。社区良性样本数据集由莱昂大学机器人研究组于2026年创建，主要研究人员包括Raúl Bayón Martínez和Adrián Prieto González。该数据集依托欧盟NextGeneration-EU复苏计划资助的ULE-CIBERLAB项目，旨在通过收集社区上传的可执行文件样本及其在CAPEv2沙箱中的动态分析报告，构建一个公开可用的良性软件行为基准库。其核心研究问题聚焦于区分恶意与良性软件的行为特征，为恶意软件检测模型提供可靠的负样本数据，从而提升自动化威胁识别的准确性与鲁棒性，对推动网络安全领域的知识转移与实证研究具有重要价值。

当前挑战

该数据集致力于解决恶意软件检测领域中样本不平衡与误报率高的挑战，通过提供经过严格验证的良性样本，帮助模型更准确地区分恶意与正常软件行为。在构建过程中，研究团队面临多重技术难题：一是样本收集需依赖社区上传，其多样性与代表性难以系统化控制；二是动态分析环境配置复杂，为对抗逃避性恶意软件，需对CAPEv2沙箱进行深度定制，包括虚拟机的特定调整与敏感信息的脱敏处理，确保分析结果的可复现性同时保障系统安全；三是数据标注与整合工作繁重，需将二进制文件、行为报告、屏幕截图及衍生文件等多模态数据统一关联，并保持元数据的一致性。

常用场景

解决学术问题

该数据集主要解决了网络安全学术研究中良性软件行为基准缺失的难题。传统恶意软件分析往往聚焦于恶意样本，忽视了对良性软件系统行为的建模，导致检测系统易产生高误报率。Community Benign Samples通过提供附带完整动态分析记录的良性样本，使研究者能够深入理解正常软件在沙箱环境中的行为模式。这为建立更精确的异常检测基线、开发低误报率的威胁识别模型提供了数据基础，推动了恶意软件检测领域向更细致、更稳健的方向发展。

实际应用

在实际应用层面，该数据集可直接服务于安全产品开发与威胁情报分析。安全企业可利用其中的良性样本行为数据，校准终端检测与响应系统的警报阈值，减少对合法软件的误拦截。同时，威胁情报团队可通过对比恶意与良性样本在CAPEv2沙箱中的行为差异，提炼更具判别力的攻击指标。此外，数据集提供的沙箱配置信息有助于组织机构复现分析环境，用于内部安全工具的测试与验证，提升整体防御体系的可靠性。

数据集最近研究