面向二进制成分透明化的ELF与PE文件组成及源码重用关系数据集
收藏国家基础学科公共科学数据中心2026-05-16 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6a05f19ef175603f068dee8d&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集旨在解决软件供应链安全中的核心痛点——二进制成分透明化问题,为二进制成分检测(SCA)技术的研究提供高质量的基础数据支撑。数据集于2025年11月21日至2026年1月1日期间,通过若干台设备,利用自主研发的自动化采集方案构建而成。
数据内容深度覆盖了二进制与源码两个维度:在二进制层面,精细化采集了ELF(Linux/Unix平台)与PE(Windows平台)两大主流执行文件格式。其中,ELF数据不仅记录了底层文件特征,还关联了发行包维度的元数据信息;PE数据则侧重于文件组成结构的完整性提取。在源码层面,系统性地存储了对应项目的源代码结构及元数据。本数据集的核心价值在于,通过内部检测算法对上述两类数据进行了深度的关联分析,最终形成了精准的“源码-二进制”重用关系数据集,实现了从编译产物到原始代码的可溯源性。
在采集技术上,项目组采用了双轨并行方案:一方面通过编写高效的Python脚本,广泛爬取主流开源社区与分发平台中的原始文件信息;另一方面,深入真实场景,对采集到的固件包进行解包处理,遍历并提取其中实际运行的二进制文件特征。所有采集到的原始信息均经过严格的去噪与合规性筛选,确保了数据的真实性与有效性。
本数据集的建立,为研究代码重用检测、版本漏洞识别以及软件物料清单(SBOM)的自动化生成提供了实证基础,对提升我国网络安全防御水平及供应链透明度具有重要的科研与应用意义。
提供机构:
中国科学院信息工程研究所



