five

DeBinVul

收藏
arXiv2024-11-08 更新2024-11-11 收录
下载链接:
https://anonymous.4open.science/r/vuln-decompiledsummarization-8017
下载链接
链接失效反馈
官方服务:
资源简介:
DeBinVul数据集由德克萨斯大学圣安东尼奥分校的Secure AI and Autonomy Laboratory创建,专注于C/C++语言,因其广泛应用于关键基础设施和与众多漏洞相关。该数据集包含150,872个样本,涵盖了多种CPU架构和编译优化级别,旨在识别、分类、描述和恢复反编译二进制代码中的漏洞。数据集的创建过程包括从多个来源收集源代码,进行编译和反编译,并使用GPT-4生成代码描述。DeBinVul数据集主要应用于增强大型语言模型在反编译二进制代码漏洞分析中的能力,旨在解决源代码与反编译二进制代码之间的语义差距问题。

The DeBinVul dataset was created by the Secure AI and Autonomy Laboratory at the University of Texas at San Antonio, focusing on the C/C++ programming languages, which are widely used in critical infrastructure and associated with numerous vulnerabilities. This dataset contains 150,872 samples covering multiple CPU architectures and compilation optimization levels, and is designed to identify, classify, characterize and recover vulnerabilities in decompiled binary code. The dataset creation process includes collecting source code from multiple sources, performing compilation and decompilation operations, and generating code descriptions via GPT-4. The DeBinVul dataset is primarily applied to enhance the capabilities of large language models (LLMs) in vulnerability analysis of decompiled binary code, aiming to address the semantic gap between source code and decompiled binary code.
提供机构:
德克萨斯大学圣安东尼奥分校
创建时间:
2024-11-08
搜集汇总
数据集介绍
main_image_url
构建方式
DeBinVul数据集的构建方式独具匠心,通过精心策划的150,872个样本,涵盖了多架构和多优化级别的C/C++代码。这些样本包括了易受攻击和不易受攻击的反编译二进制代码,旨在支持(i)识别;(ii)分类;(iii)描述漏洞;以及(iv)恢复反编译二进制代码中的函数名称等任务。数据集的构建过程中,首先从国家漏洞数据库(NVD)和软件保证参考数据集(SARD)中收集源代码漏洞,并结合真实世界代码和合成添加的漏洞,以确保覆盖所有可能的漏洞场景。随后,使用Clang和GCC编译器在x86、x64、ARM和MIPS架构上进行编译,并应用O0和O3两种优化级别。最后,利用GHIDRA工具对编译后的代码进行反编译,生成反编译二进制代码样本,并辅以代码描述和指令技术,确保数据集的全面性和实用性。
使用方法
DeBinVul数据集的使用方法灵活多样,适用于多种研究和开发场景。首先,研究人员可以利用该数据集对现有的LLMs进行微调,以提高其在反编译二进制代码漏洞检测、分类、描述和函数名称恢复等任务中的表现。其次,开发者可以使用数据集中的样本进行模型训练和验证,确保其在实际应用中的准确性和可靠性。此外,数据集还提供了详细的代码描述和指令技术,帮助用户更好地理解和利用反编译二进制代码中的信息。通过这些方法,DeBinVul数据集不仅能够推动漏洞分析技术的发展,还能为关键基础设施的安全保障提供有力支持。
背景与挑战
背景概述
DeBinVul数据集由德克萨斯大学圣安东尼奥分校和路易斯安那州立大学的研究人员于2025年创建,旨在解决反编译二进制代码中的漏洞分析问题。该数据集的构建背景源于当前大型语言模型(LLMs)在处理反编译二进制代码时存在的显著语义限制,特别是在识别和分类漏洞方面。DeBinVul数据集通过提供多架构和多优化的C/C++反编译二进制代码样本,填补了这一领域的数据空白,显著提升了LLMs在检测二进制代码漏洞方面的性能。
当前挑战
DeBinVul数据集面临的挑战主要包括两个方面:一是缺乏真实世界的反编译二进制代码漏洞数据集,导致LLMs在处理此类数据时表现不佳;二是源代码与反编译二进制代码之间存在语义鸿沟,使得LLMs难以准确理解和分类漏洞。此外,反编译过程中丢失的重要结构信息,如控制流、复杂数据结构、变量名和函数签名,也增加了分析的复杂性和难度。
常用场景
经典使用场景
DeBinVul数据集在逆向工程领域中扮演着重要角色,特别是在大型语言模型(LLMs)用于二进制代码漏洞分析的场景中。该数据集通过提供多架构和多优化级别的C/C++反编译二进制代码样本,支持了四个关键任务:漏洞识别、分类、描述以及函数名恢复。这些任务的实现不仅提升了LLMs在检测二进制代码漏洞方面的性能,还显著提高了其在实际应用中的准确性和效率。
解决学术问题
DeBinVul数据集解决了当前LLMs在分析反编译二进制代码时存在的语义局限性问题。通过提供丰富的反编译二进制代码样本,该数据集帮助研究人员克服了源代码与二进制代码之间的语义鸿沟,从而提升了LLMs在漏洞分析任务中的表现。这一进展对于推动软件安全领域的研究具有重要意义,特别是在关键基础设施(如固件、驱动程序和专有软件)的安全分析中。
实际应用
DeBinVul数据集在实际应用中广泛用于提升逆向工程和漏洞分析的效率。例如,安全专家可以利用该数据集训练LLMs,以更快速和准确地识别和分类反编译二进制代码中的漏洞。此外,该数据集还支持函数名恢复和代码描述任务,帮助开发者在修复漏洞时更好地理解代码逻辑。这些应用显著提高了软件安全分析的自动化水平,减少了人工干预的需求。
数据集最近研究
最新研究方向
近年来,DeBinVul数据集在逆向工程和漏洞分析领域引起了广泛关注。该数据集专注于反编译二进制代码中的漏洞分析,填补了现有大型语言模型(LLMs)在处理反编译二进制代码时缺乏相关数据集的空白。前沿研究方向主要集中在利用DeBinVul数据集对LLMs进行微调,以提升其在检测、分类、描述和恢复反编译二进制代码中函数名称的能力。相关研究显示,通过使用DeBinVul数据集,LLMs在检测二进制代码漏洞方面的性能显著提升,如CodeLlama、Llama3和CodeGen2的性能分别提高了19%、24%和21%。此外,该数据集的多架构和多优化特性使其在跨平台和跨优化级别的漏洞分析中具有重要应用价值,推动了逆向工程和软件安全领域的技术进步。
相关研究论文
  • 1
    Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries德克萨斯大学圣安东尼奥分校 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作