CveBinarySheet
收藏arXiv2025-01-15 更新2025-01-17 收录
下载链接:
http://arxiv.org/abs/2501.08840v1
下载链接
链接失效反馈官方服务:
资源简介:
CveBinarySheet是由独立研究员Lingfeng Chen创建的漏洞分析数据库,旨在为IoT、UEFI和MCU固件环境提供全面的漏洞数据集。该数据集包含1033个CVE条目,涵盖1999年至2024年的漏洞,支持x86-64、i386、MIPS、ARMv7和RISC-V64五种CPU架构,并提供O0和O3两种编译器优化级别的预编译二进制文件。数据集通过详细的元数据和多样化的二进制样本,加速了二进制静态代码分析、二进制相似性分析和漏洞匹配工具的开发。CveBinarySheet的应用领域包括漏洞相似性匹配模型的训练、基于大语言模型的漏洞修复语料库训练以及二进制级形式分析。
CveBinarySheet is a vulnerability analysis database created by independent researcher Lingfeng Chen, aiming to provide comprehensive vulnerability datasets for IoT, UEFI and MCU firmware environments. This dataset contains 1033 CVE entries, covering vulnerabilities from 1999 to 2024, supports five CPU architectures including x86-64, i386, MIPS, ARMv7 and RISC-V64, and provides pre-compiled binary files under two compiler optimization levels: O0 and O3. This dataset accelerates the development of binary static code analysis, binary similarity analysis and vulnerability matching tools via detailed metadata and diverse binary samples. Application fields of CveBinarySheet include training of vulnerability similarity matching models, training of vulnerability repair corpora based on Large Language Models (LLMs), and binary-level formal analysis.
提供机构:
独立研究员
创建时间:
2025-01-15
搜集汇总
数据集介绍

构建方式
CveBinarySheet数据集的构建过程基于对1033个CVE条目的系统化整理,涵盖了从1999年至2024年披露的漏洞。每个CVE条目均附有详细的元数据,包括漏洞标识符、补丁链接、受影响函数名称及版本范围等。数据集中的二进制文件通过Arch Linux的Arch User Repository(AUR)进行编译,确保在不同CPU架构(如x86-64、i386、MIPS、ARMv7和RISC-V64)下的兼容性和一致性。此外,数据集还提供了两种编译器优化级别(O0和O3)的二进制文件,以支持不同编译场景下的漏洞分析。
特点
CveBinarySheet数据集的特点在于其广泛的覆盖范围和多样化的二进制样本。数据集不仅涵盖了16个常用的第三方组件(如busybox、curl等),还支持五种主流的CPU架构,特别考虑了RISC-V64架构在嵌入式领域的日益普及。每个二进制文件均附带详细的元数据,便于研究人员进行深入的漏洞分析。此外,数据集通过提供不同优化级别的二进制文件,使得研究人员能够研究编译器优化对漏洞检测的影响,进一步提升了其在二进制静态代码分析中的实用性。
使用方法
CveBinarySheet数据集的使用方法主要围绕二进制静态代码分析(BSCA)展开。研究人员可以通过数据集中的预编译二进制文件进行漏洞定位、二进制相似性分析以及漏洞匹配等任务。数据集的结构化分类(按组件、版本、架构和优化级别)使得用户能够快速定位所需的二进制文件。此外,数据集附带的编译脚本支持二进制文件的重新生成,确保了研究的可重复性。CveBinarySheet还可用于训练基于大语言模型(LLM)的漏洞修复工具,或作为二进制级形式化分析工具的基准数据集,推动相关领域的研究进展。
背景与挑战
背景概述
CveBinarySheet数据集由独立研究员Lingfeng Chen于2025年提出,旨在填补物联网(IoT)设备、UEFI固件和MCU固件环境中二进制静态代码分析(BSCA)领域的数据空白。该数据集涵盖了1999年至2024年间披露的1033个CVE条目,支持x86-64、i386、MIPS、ARMv7和RISC-V64五种CPU架构,并包含16个常用第三方组件的预编译二进制文件。通过提供详细的元数据和多样化的二进制样本,CveBinarySheet为BSCA工具、二进制相似性分析和漏洞匹配应用的开发提供了重要支持,推动了物联网安全领域的研究进展。
当前挑战
CveBinarySheet数据集在构建和应用过程中面临多重挑战。首先,尽管数据集涵盖了1033个CVE条目,但仍无法覆盖所有已知漏洞,尤其是2024年后新发现的漏洞。其次,数据集仅包含16个第三方组件,可能遗漏其他广泛使用的库和工具中的潜在漏洞。此外,编译环境的差异(如不同编译器版本或设置)可能影响二进制文件的行为和分析结果。这些挑战限制了数据集在全面性和一致性方面的表现,未来需要通过扩展CVE覆盖范围、增加第三方组件以及进一步标准化编译环境来提升其应用价值。
常用场景
经典使用场景
CveBinarySheet数据集在物联网(IoT)设备安全研究中具有广泛的应用。该数据集通过提供涵盖多个CPU架构和编译器优化级别的预编译二进制文件,为研究人员提供了一个全面的漏洞分析平台。特别是在IoT设备固件漏洞检测中,CveBinarySheet能够帮助研究人员在不同编译环境下进行精确的漏洞定位,从而加速漏洞修复和安全补丁的开发。
衍生相关工作
CveBinarySheet的发布推动了多项相关研究的发展。例如,基于该数据集的研究工作包括使用BERT和Transformer模型进行二进制代码相似性分析,以及利用大语言模型(LLM)进行自动化漏洞修复。这些研究不仅提升了二进制分析的精度,还为未来的安全研究提供了新的方向。
数据集最近研究
最新研究方向
随着物联网设备的广泛应用,固件漏洞分析成为安全研究的重要方向。CveBinarySheet数据集通过提供涵盖1033个CVE条目的预编译二进制文件,支持多种CPU架构和编译器优化级别,显著推动了二进制静态代码分析(BSCA)领域的发展。该数据集不仅为漏洞相似性匹配模型的训练提供了丰富的数据基础,还为基于大语言模型(LLM)的漏洞修复研究提供了详尽的代码修改元数据。此外,CveBinarySheet在二进制级别的形式化分析中也发挥了重要作用,帮助验证和优化漏洞检测工具的性能。通过支持多种架构和优化环境,该数据集为物联网、UEFI和MCU固件的安全分析提供了强有力的支持,推动了前沿技术的实际应用。
相关研究论文
- 1CveBinarySheet: A Comprehensive Pre-built Binaries Database for IoT Vulnerability Analysis独立研究员 · 2025年
以上内容由遇见数据集搜集并总结生成



