changliu8541/Assemblage_PE
收藏Hugging Face2024-06-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/changliu8541/Assemblage_PE
下载链接
链接失效反馈官方服务:
资源简介:
Assemblage Windows PE数据集包含67k个Windows PE二进制文件,相关信息存储在binaries.csv和functions.csv文件中。由于二进制文件无法直接放入CSV文件,因此还包含了一个单独的`binaries.tar.xz`文件。此外,SQLite数据库`winpe_pdbs.sqlite.tar.xz`记录了二进制文件的详细信息,包括pdb路径、函数源代码和注释。
The Assemblage Windows PE Dataset contains 67k Windows PE binary files, with its relevant information stored in the binaries.csv and functions.csv files. Since binary files cannot be directly stored in CSV files, a separate `binaries.tar.xz` file is also included. In addition, the SQLite database `winpe_pdbs.sqlite.tar.xz` records detailed information of these binary files, including PDB paths, function source codes and comments.
提供机构:
changliu8541
原始信息汇总
Assemblage Windows PE Dataset 概述
数据集内容
- 数据集类型:包含67,000个Windows PE二进制文件。
- 数据存储:
binaries.csv和functions.csv存储相关信息。binaries.tar.xz包含实际的二进制文件,可通过SHA-256哈希或binary_path列进行索引。winpe_pdbs.sqlite.tar.xz是一个SQLite数据库,记录了二进制文件的详细信息,包括pdb路径、函数源代码和评论。
数据集使用
- 数据集许可证:每个二进制文件的源代码仓库许可证各不相同。
搜集汇总
数据集介绍

构建方式
在软件安全与逆向工程领域,构建高质量的可执行文件数据集对于分析恶意软件和优化程序分析工具至关重要。Assemblage Windows PE数据集通过云端分布式系统,自动化编译大量开源项目,生成了超过91,000个Windows PE格式的可执行文件。该系统从多样化的源代码仓库中提取并编译二进制文件,同时记录每个文件的元数据,如SHA-256哈希值和原始许可证信息,确保了数据来源的合法性与可追溯性。构建过程中,系统还生成了详细的函数级信息,包括源代码和注释,为深度分析提供了坚实基础。
使用方法
使用Assemblage Windows PE数据集时,研究人员可首先解压binaries.tar.xz文件以访问二进制内容,并通过CSV文件中的SHA-256哈希或binary_path列进行快速索引。数据集适用于构建和评估安全工具,例如基于机器学习的恶意软件分类器或程序理解模型。通过SQLite数据库,用户可以深入探索函数级细节,如源代码和注释,以支持逆向工程或代码分析任务。在使用过程中,需遵守原始源代码仓库的许可证规定,确保合规性,从而推动软件安全领域的创新研究。
背景与挑战
背景概述
在软件安全与程序分析领域,高质量二进制数据集对于恶意软件检测、漏洞挖掘及编译器优化等研究至关重要。Assemblage Windows PE数据集由changliu8541等人于2024年构建,其核心研究问题在于如何大规模、自动化地生成多样化的Windows可执行文件(PE)样本,以支持静态与动态分析任务。该数据集通过云端分布式系统采集了约9.1万个PE文件,并附带了函数级源代码与调试信息,显著提升了二进制分析研究的可复现性与数据多样性,对安全社区与工业界产生了深远影响。
当前挑战
该数据集旨在解决Windows PE二进制程序分析中的样本稀缺与多样性不足的挑战,传统数据集往往规模有限或缺乏源代码关联,难以支撑深度学习模型训练与复杂分析任务。在构建过程中,研究人员面临分布式系统协调、海量存储管理以及合法许可证合规性等难题,需确保二进制文件及其对应源码的完整采集与索引,同时维护原始代码仓库的许可协议,这些技术性与法律性障碍共同构成了数据集创建的核心挑战。
常用场景
经典使用场景
在恶意软件分析与安全研究领域,Assemblage Windows PE数据集为静态和动态二进制分析提供了丰富的资源。该数据集包含91k个Windows PE可执行文件及其函数级元数据,使得研究人员能够深入探索二进制代码的结构与行为模式。经典使用场景包括训练机器学习模型以识别恶意软件特征,或构建基准测试集评估反汇编工具与漏洞检测算法的性能。通过提供大规模、多样化的真实世界二进制样本,该数据集支持从函数相似性分析到编译器优化模式识别等多种高级研究任务。
解决学术问题
该数据集有效解决了二进制安全研究中的若干核心学术问题。首先,它缓解了高质量、大规模二进制数据集稀缺的困境,为基于机器学习的恶意软件检测模型提供了可靠的训练与验证基础。其次,通过包含函数源代码与调试信息,数据集支持对二进制代码与源代码之间映射关系的研究,促进了逆向工程与程序理解领域的进展。此外,其多样化的编译环境与优化设置有助于探索编译器行为对二进制特征的影响,为软件供应链安全分析提供了关键数据支撑。
实际应用
在实际应用层面,Assemblage数据集被广泛部署于工业界与学术界的多个安全场景。安全公司利用该数据集训练下一代恶意软件分类系统,提升对未知威胁的检测能力。软件开发商则借助其分析二进制漏洞模式,增强产品的安全防护机制。在教育领域,该数据集作为实践平台,帮助学生掌握逆向工程与二进制分析技能。同时,数据集支持的开源工具链促进了自动化二进制分析管道的开发,为安全审计与威胁情报生成提供了高效解决方案。
数据集最近研究
最新研究方向
在恶意软件分析与网络安全领域,Assemblage Windows PE数据集凭借其大规模、多样化的二进制文件集合,正推动着前沿研究方向的发展。该数据集通过提供超过9.1万个Windows PE可执行文件及其关联的源代码、函数信息,为基于深度学习的恶意软件检测模型训练提供了丰富资源。当前研究热点聚焦于利用此类数据集开发更精准的静态与动态分析技术,以应对日益复杂的勒索软件和高级持续性威胁。这些进展不仅提升了自动化威胁识别的效率,也为构建更具鲁棒性的安全防御体系奠定了数据基础,对保障数字基础设施安全具有深远意义。
以上内容由遇见数据集搜集并总结生成



