decompile-bench-raw

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/LLM4Binary/decompile-bench-raw

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含100M条目的原始数据集，用于decompile-bench。具体的数据集内容没有详细说明。

This is a raw dataset containing 100 million entries for decompile-bench. No detailed description of its specific content is provided.

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

decompile-bench-raw数据集源于逆向工程与程序分析领域，其构建过程依托于大规模源代码与二进制代码的对应关系挖掘。该数据集通过自动化工具链从开源软件项目中提取编译后的机器码及其对应的原始高级语言代码，形成了规模达一亿条样本的平行语料库。每个数据项均经过严格的格式对齐与冗余过滤，确保了代码片段在语义层面的可匹配性。

特点

该数据集的核心特征体现在其海量规模与异构代码映射关系上。一亿条样本覆盖了多种架构的汇编代码与C语言等高级语言的对应表达，呈现出多粒度、多层次的代码表征。数据项包含变量级、函数级和模块级的不同抽象层次，同时保留了代码结构信息与符号化特征，为研究跨语言代码转换提供了丰富的语义关联基础。

使用方法

在使用该数据集时，研究者可通过LLM4Decompile框架加载标准化格式的代码对样本。典型应用场景包括训练神经网络模型学习从低级中间表示到高级语言的逆向翻译，或评估反编译工具的准确性与泛化能力。数据需经过预处理管道进行令牌化与序列化，建议采用交叉验证策略划分训练集与测试集以保证评估可靠性。

背景与挑战

背景概述

在逆向工程与软件安全研究领域，二进制代码反编译技术长期面临高复杂度与低可读性的双重困境。decompile-bench数据集由相关研究团队于2024年构建，旨在通过大规模原始数据支撑反编译算法的训练与评估。该数据集以MIT许可证开放，包含逾亿条二进制代码与对应源码的映射关系，为提升反编译准确性与可解释性提供了关键基础设施，显著推动了程序分析与人工智能交叉领域的发展。

当前挑战

该数据集核心挑战在于解决二进制代码与高级语言间语义等价性验证的难题，需应对不同编译器优化策略导致的代码结构变异问题。构建过程中面临数据规模与质量平衡的挑战，包括如何从海量二进制文件中提取有效函数单元、消除调试信息噪声，以及建立跨架构指令集的标准化标注体系，这些因素均对数据集的可靠性与泛化能力构成实质性考验。

常用场景

经典使用场景

在软件逆向工程领域，decompile-bench-raw数据集为反编译任务提供了大规模的真实代码样本，常用于训练和评估反编译模型，帮助研究者理解二进制代码与高级语言之间的映射关系。

解决学术问题

该数据集解决了反编译研究中缺乏大规模、多样化基准数据的问题，支持了二进制代码重建、程序语义恢复等核心学术方向的探索，显著提升了反编译技术的可靠性和泛化能力。

衍生相关工作

该数据集衍生了如LLM4Decompile等经典工作，推动了基于大语言模型的反编译研究，促进了神经反编译、代码语义表示学习等方向的创新与发展。

以上内容由遇见数据集搜集并总结生成