five

community-benign-samples

收藏
Hugging Face2026-01-16 更新2026-01-17 收录
下载链接:
https://huggingface.co/datasets/unileon-robotics/community-benign-samples
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从社区上传中提取的.exe样本,以及由CAPEv2生成的报告、HTML报告、动态执行期间拍摄的截图和动态执行期间丢弃的文件(如果有)。数据集是ULE-CIBERLAB项目的一部分,该项目由欧盟NextGeneration-EU资助,旨在为国家的商业结构提供网络安全知识转移。数据集结构包括binaries、JSON、HTML、screenshots和dropped_files目录,分别存储原始可执行文件、CAPEv2分析的JSON输出、HTML报告、动态执行期间的截图和恶意软件在沙箱执行期间丢弃的文件。数据集的使用需遵循CC-BY-NC-SA 4.0许可。
创建时间:
2026-01-13
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Community Benign Samples
  • 发布者: Grupo de Robótica de la Universidad de León
  • 发布日期: 2026年
  • 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
  • 语言: 英语
  • 标签: benign, cape, analysis
  • 规模类别: 1<n<100

项目背景

本数据集是“ULE-CIBERLAB项目:面向国家商业结构的网络安全知识转移”的一部分。该项目由欧盟NextGeneration-EU、复苏与韧性计划通过INCIBE资助。

数据集描述

本数据集汇集了从Ciberlab Web社区上传中提取的**.exe样本**。每个样本包含以下内容:

  • 原始二进制文件(.exe
  • 由CAPEv2生成的report.json报告
  • 由CAPEv2生成的report.html报告(HTML版本)
  • CAPE在分析过程中捕获的屏幕截图
  • 动态执行过程中丢弃的文件(如果有)

数据来源与归属

本存储库中所有样本均来自社区提交。用户可通过Ciberlab Web上传样本表单自由提交并分析自己的样本。

数据集结构

根目录结构如下:

dataset/ ├── JSON/ │ └── <md5>.json ├── HTML/ │ └── <md5>.html ├── screenshots/ │ └── <md5>/ │ └── md5.zip ├── binaries/ │ └── <md5>/ | ├── <md5>.exe │ └── LICENSE.MD └── dropped_files/ └── <md5>/ └── md5.zip

文件描述与格式

  • binaries/<md5>/<md5>.exe: 原始可执行文件的副本。
  • JSON/<md5>.json: CAPEv2分析的JSON输出,包含元数据、进程、丢弃文件、网络活动、签名等信息。
  • HTML/<md5>.html: CAPEv2生成的HTML版本报告。
  • screenshots/<md5>/*.png: 动态执行过程中捕获的屏幕截图。
  • dropped_files/<md5>/*: 恶意软件在沙箱执行期间留在磁盘上的文件。

CAPEv2沙箱配置

为分析具有规避能力的样本,对生成此数据集时使用的CAPEv2沙箱配置进行了调整。为支持实验复现,存储库中包含了所使用的配置文件(CAPEv2 conf/文件夹)和自定义KVM虚拟机XML。 配置结构如下:

CAPEv2 Configuration/ ├── XML KVM/ │ └── xml-custom-machine.xml └── conf/ └── ...

  • XML KVM/: 包含虚拟机的XML描述符(建议名称:xml-custom-machine.xml),反映了分析中使用的VM配置(vCPU、内存、虚拟设备、磁盘、模拟NIC等)。
  • conf/: 实验中CAPEv2使用的conf文件夹副本,包含相关配置文件(路径、超时设置、启用模块、与分析后端集成、网络捕获参数等)。注意:所有敏感数据(凭据、私钥)已被移除。

引用方式

Bayón-Martínez, R., & Prieto-González, A. (2026). Community Benign Samples Dataset [Data set]. Grupo de Robótica de la Universidad de León. Hugging Face.
https://huggingface.co/datasets/unileon-robotics/community-benign-samples
许可证: Creative Commons BY-NC-SA 4.0.

BibTeX引用格式: bibtex @dataset{bayonmartinez_prietogonzalez_2026_community_benign_samples, author = {Bayón-Martínez, Raúl and Prieto-González, Adrian}, title = {Community Benign Samples Dataset}, year = {2026}, publisher = {Grupo de Robótica de la Universidad de León}, howpublished = {url{https://huggingface.co/datasets/unileon-robotics/community-benign-samples}}, note = {Available on Hugging Face. License: CC BY-NC-SA 4.0} }

联系人

  • Raúl Bayón Martínez: 莱昂大学博士研究生/研究职员。邮箱:rbaym@unileon.es
  • Adrián Prieto González: 莱昂大学研究职员。邮箱:aprig@unileon.es
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全研究领域,高质量的数据集对于恶意软件分析至关重要。Community Benign Samples数据集的构建依托于社区驱动的样本收集机制,通过Ciberlab Web平台接收用户上传的可执行文件样本。每个样本均经过CAPEv2沙箱的动态分析,生成包含JSON报告、HTML报告、执行截图以及可能存在的丢弃文件在内的完整分析结果。数据集采用MD5哈希值作为文件命名依据,确保了样本的唯一性与可追溯性,同时提供了详细的沙箱配置信息,便于实验的复现与验证。
使用方法
研究人员可利用该数据集进行恶意软件分类模型的训练与评估,尤其适用于构建区分恶意与良性软件的二元分类器。数据集中的JSON报告包含了丰富的元数据、进程行为、网络活动及安全签名信息,可直接用于特征工程。HTML报告与截图则为行为分析提供了直观的可视化参考。使用前需注意样本的许可证约束,部分二进制文件遵循GPLv3协议。建议在遵循CC BY-NC-SA 4.0许可的前提下,引用提供的BibTeX格式进行学术标注。
背景与挑战
背景概述
在网络安全研究领域,恶意软件分析一直是保障数字环境安全的核心议题。社区良性样本数据集由莱昂大学机器人研究组于2026年创建,主要研究人员包括Raúl Bayón Martínez和Adrián Prieto González。该数据集依托欧盟NextGeneration-EU复苏计划资助的ULE-CIBERLAB项目,旨在通过收集社区上传的可执行文件样本及其在CAPEv2沙箱中的动态分析报告,构建一个公开可用的良性软件行为基准库。其核心研究问题聚焦于区分恶意与良性软件的行为特征,为恶意软件检测模型提供可靠的负样本数据,从而提升自动化威胁识别的准确性与鲁棒性,对推动网络安全领域的知识转移与实证研究具有重要价值。
当前挑战
该数据集致力于解决恶意软件检测领域中样本不平衡与误报率高的挑战,通过提供经过严格验证的良性样本,帮助模型更准确地区分恶意与正常软件行为。在构建过程中,研究团队面临多重技术难题:一是样本收集需依赖社区上传,其多样性与代表性难以系统化控制;二是动态分析环境配置复杂,为对抗逃避性恶意软件,需对CAPEv2沙箱进行深度定制,包括虚拟机的特定调整与敏感信息的脱敏处理,确保分析结果的可复现性同时保障系统安全;三是数据标注与整合工作繁重,需将二进制文件、行为报告、屏幕截图及衍生文件等多模态数据统一关联,并保持元数据的一致性。
常用场景
解决学术问题
该数据集主要解决了网络安全学术研究中良性软件行为基准缺失的难题。传统恶意软件分析往往聚焦于恶意样本,忽视了对良性软件系统行为的建模,导致检测系统易产生高误报率。Community Benign Samples通过提供附带完整动态分析记录的良性样本,使研究者能够深入理解正常软件在沙箱环境中的行为模式。这为建立更精确的异常检测基线、开发低误报率的威胁识别模型提供了数据基础,推动了恶意软件检测领域向更细致、更稳健的方向发展。
实际应用
在实际应用层面,该数据集可直接服务于安全产品开发与威胁情报分析。安全企业可利用其中的良性样本行为数据,校准终端检测与响应系统的警报阈值,减少对合法软件的误拦截。同时,威胁情报团队可通过对比恶意与良性样本在CAPEv2沙箱中的行为差异,提炼更具判别力的攻击指标。此外,数据集提供的沙箱配置信息有助于组织机构复现分析环境,用于内部安全工具的测试与验证,提升整体防御体系的可靠性。
数据集最近研究
最新研究方向
在网络安全领域,恶意软件分析始终是防御体系的核心环节。Community Benign Samples数据集通过整合社区上传的可执行文件样本及其CAPEv2沙箱动态分析报告,为良性软件行为建模提供了珍贵资源。当前研究前沿聚焦于利用此类数据集训练机器学习模型,以提升恶意软件检测的准确性和泛化能力,特别是在对抗性样本识别和零日攻击防御方面。该数据集与欧盟NextGeneration-EU计划资助的ULE-CIBERLAB项目紧密关联,反映了学术界与产业界协同强化国家网络安全韧性的趋势。其开放共享特性促进了跨机构合作,为构建更健壮的行为基线库和自动化分析管道奠定了数据基础,对推动安全生态系统的知识转移具有实质性意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作