跨编译环境的源代码与二进制同源函数数据集
收藏国家基础学科公共科学数据中心2026-05-16 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6a05f1a2f175603f068dee97&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集(含BINATLAS与BINARES两部分)主要面向二进制代码审计、1-day漏洞检测及跨平台软件安全研究建设,旨在揭示编译环境对同源函数特征的影响及其在真实物联网(IoT)环境下的表征规律。该资源采用“大规模自动化交叉编译+真实固件固化提取”的复合方案产生:BINATLAS部分通过对6大类热门开源项目执行2种编译器、5种优化等级及4种架构等320种组合的自动化构建,生成了逾734万个具有符号对齐信息的函数;BINARES部分则从ASUS、Cisco等13个主流厂商的58个真实IoT固件中提取,并经由安全专家耗时300余小时进行人工复核,精准标注了54个真实1-day漏洞的1,442个同源函数。数据集核心字段涵盖了架构、优化等级、内联状态及漏洞标签等关键维度,并经过了剔除微型函数噪声及元数据一致性校验等严格处理。目前,本数据集支持对Gemini、jTrans等代表性AI检测工具进行基准测试,为解决跨编译配置下的二进制函数识别与复杂固件环境下的漏洞检测难题提供了极具研究价值的规模化数据支撑。
提供机构:
中国科学院信息工程研究所



