blint-db
收藏Hugging Face2025-03-27 更新2025-03-28 收录
下载链接:
https://huggingface.co/datasets/AppThreat/blint-db
下载链接
链接失效反馈官方服务:
资源简介:
blint-db是一个由预编译的SQLite文件组成的二进制符号数据库家族,通过在多种平台和架构上构建开源库和应用集合,并使用OWASP blint生成SBOM(软件物料清单)而创建。该项目最初以可以使用wrapdb和vcpkg包管理器构建的C/C++项目开始,但计划扩展到其他生态系统。该数据集可用于提高C/C++项目生成的SBOM和SCA(软件成分分析)的准确性,以及用于训练从二进制文件中识别组件和预测风险的机器学习模型的矢量化数据。
blint-db is a family of binary symbol databases composed of pre-compiled SQLite files. It is developed by compiling a collection of open-source libraries and applications across multiple platforms and architectures, and generating SBOMs (Software Bill of Materials) using OWASP blint. Initially starting as a C/C++ project that can be built with the wrapdb and vcpkg package managers, the project plans to expand to other ecosystems. This dataset can be used to improve the accuracy of SBOMs and SCA (Software Component Analysis) generated for C/C++ projects, as well as serve as vectorized data for training machine learning models that identify components and predict risks from binary files.
创建时间:
2025-03-24
搜集汇总
数据集介绍

构建方式
在二进制安全分析领域,blint-db数据集通过系统化构建流程生成。该项目采用多平台编译策略,利用vcpkg和Meson包管理器构建C/C++开源项目,覆盖Ubuntu、Alpine Linux和macOS等操作系统及amd64/arm64架构。构建过程中特别保留debug和stripped两种模式,避免优化干扰,并通过OWASP blint工具生成标准化SBOM(软件物料清单)数据,最终形成预编译的SQLite数据库。
特点
该数据集的核心价值在于其多维度的二进制符号数据库架构。通过Exports、Projects、Binaries和BinariesExports四张关联表,完整记录项目元数据、二进制文件与导出符号的映射关系。独特之处在于支持符号级检索,用户可通过SQL查询快速定位函数符号对应的二进制文件及所属项目,为软件成分分析(SCA)提供细粒度数据支持。当前数据库设计保持扩展性,为未来纳入更多语言生态预留了架构空间。
使用方法
实际应用中,研究者可通过SQL接口执行符号匹配查询,结合启发式算法对结果进行排序优化。典型场景包括:基于导出符号特征提升C/C++项目SBOM生成精度,或构建机器学习模型的训练数据集用于二进制组件识别。使用示例中提供的SQL查询模板,先通过符号列表匹配eid和bid,再关联查询获取项目名称及purl标识符,最终形成完整的组件依赖图谱。
背景与挑战
背景概述
blint-db数据集由OWASP社区支持的AppThreat团队于2025年创建,旨在构建一个跨平台、多架构的二进制符号数据库。该项目依托NGI Zero Core基金资助,通过集成vcpkg和meson构建系统的开源项目,生成标准化的软件物料清单(SBOM)。作为二进制软件成分分析(SCA)领域的前沿资源,该数据集通过预编译的SQLite数据库结构,系统化地记录了C/C++项目中的导出符号、二进制文件及其元数据关联,显著提升了二进制文件成分识别的准确性和机器学习模型训练的数据质量。
当前挑战
该数据集面临的核心挑战主要体现在技术实现与领域需求两个维度。在领域问题层面,二进制文件的符号识别需解决不同编译配置(如调试模式与优化模式)、操作系统架构(amd64/arm64)及构建工具链差异导致的符号变异问题。构建过程中,动态生成的数据库模式需要持续适应新增构建管道带来的结构变化,而跨平台二进制文件的标准化处理则需克服Linux/macOS系统ABI兼容性等底层技术障碍。当前未稳定的数据库模式与未充分利用的SBOM字段,也反映出数据结构化与元数据整合尚存优化空间。
常用场景
经典使用场景
在二进制软件成分分析(SCA)领域,blint-db数据集通过预编译的SQLite数据库,为研究人员和开发者提供了丰富的二进制符号数据。该数据集广泛应用于提升C/C++项目软件物料清单(SBOM)生成的精确性,特别是在跨平台和架构的复杂环境中,能够有效识别和匹配二进制文件中的导出符号,为后续分析奠定坚实基础。
衍生相关工作
围绕blint-db衍生的经典工作包括OWASP blint工具的增强版本,以及基于符号向量化的风险预测模型。研究团队利用该数据集开发了新型启发式排名算法,显著提升了二进制成分关联分析的准确性。相关成果已应用于软件供应链威胁情报平台,形成了完整的技术生态。
数据集最近研究
最新研究方向
在二进制分析和软件供应链安全领域,blint-db数据集的最新研究方向聚焦于提升二进制文件的符号识别精度与机器学习模型的训练效率。该数据集通过整合多平台、多架构的开放源代码库构建结果,结合OWASP blint工具生成的SBOM(软件物料清单),为C/C++项目的组件识别与风险预测提供了丰富的向量化数据。当前研究热点包括利用该数据集优化符号匹配算法,减少误报率,以及探索跨生态系统的扩展应用,如支持更多编程语言和构建系统。此外,该数据集在支持下一代互联网(NGI)计划中的软件供应链安全研究方面具有重要价值,为开发更智能的二进制成分分析工具奠定了基础。
以上内容由遇见数据集搜集并总结生成



