five

decompile-bench-makefile

收藏
Hugging Face2025-08-08 更新2025-08-09 收录
下载链接:
https://huggingface.co/datasets/LLM4Binary/decompile-bench-makefile
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含C/C++项目配对的数据集,来源于1700个使用makefile作为构建系统的宽容C/C++项目。数据集有两个版本,20250808版本包含283K对配对,是从1000万对中精简而来;20250730版本包含83K对配对,是从500万对中精简而来。
创建时间:
2025-07-29
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 数据集名称: decompile-bench-makefile
  • 数据来源: 1700个采用宽松许可的C/C++项目(使用makefile构建系统)

数据规模与版本

  • 20250808版本:
    • 数据量: 283K对(从10M对数据浓缩得到)
  • 20250730版本:
    • 数据量: 83K对(从5M对数据浓缩得到)

备注

  • 该项目正在进行中(On going)
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程与程序分析领域,decompile-bench-makefile 数据集通过系统化采集与精炼流程构建。其源自 2600 余个采用 Makefile 构建系统的宽松许可 C/C++ 项目,初始收集了高达 1200 万对数据,经过去冗余和优化处理,最终凝练为 64.3 万对高质量样本。这一过程注重代码与编译产物的对应关系,确保了数据在反编译研究中的代表性和可靠性。
特点
该数据集显著特点在于其规模性与领域针对性,专注于 Makefile 管理的 C/C++ 项目,为反编译和二进制分析研究提供了高度相关的实验数据。数据历经多轮迭代和浓缩,由 2024 年 7 月的 8.3 万对扩展至 8 月的 64.3 万对,呈现出持续增长和动态优化趋势。其样本均来源于实际项目,兼具多样性和实用性,有效支持模型训练与评估。
使用方法
研究人员可借助该数据集开展反编译、代码恢复和程序理解等相关实验,尤其适用于训练和测试神经网络模型。数据集以代码-二进制对的形式组织,用户可提取特征进行有监督学习,或评估反编译工具的性能。其结构化设计便于直接加载至机器学习框架,推动自动化程序分析领域的创新探索。
背景与挑战
背景概述
在软件工程与程序分析领域,二进制代码的反编译技术长期致力于将低级机器代码恢复为可读的高级语言表示。decompile-bench-makefile数据集由研究团队于2025年构建,专注于涵盖使用Makefile构建系统的Permissive许可C/C++项目,其核心目标是推动反编译过程中语义等价性验证与代码重建质量的研究,为程序理解、漏洞分析及编译器优化提供关键数据支撑。
当前挑战
该数据集旨在解决反编译领域中的代码语义还原挑战,即如何准确将二进制指令映射至高级语言结构并保持功能一致性。构建过程中面临多重困难:需从数千项目中提取源码-二进制配对数据,并处理不同编译优化选项导致的语义多样性;同时需过滤冗余样本,从超千万原始配对中凝练出高质量子集,确保数据规模与有效性之间的平衡。
常用场景
经典使用场景
在软件工程与程序分析领域,decompile-bench-makefile数据集为逆向工程与编译优化研究提供了重要支持。该数据集通过整合大量C/C++项目及其Makefile构建系统的配对数据,常用于训练和评估反编译工具的性能,特别是在处理复杂构建依赖和代码结构恢复方面具有显著价值。
衍生相关工作
该数据集催生了多项经典研究工作,包括基于深度学习的反编译算法优化、构建系统依赖关系的自动化解析工具以及跨平台二进制代码分析框架。这些衍生成果不仅推动了程序分析领域的理论进展,还为开源社区提供了可复现的实验基础与标准化测试环境。
数据集最近研究
最新研究方向
在软件工程与程序分析领域,decompile-bench-makefile数据集正推动二进制代码逆向工程与编译构建系统的深度融合研究。该数据集聚焦于从带Makefile构建系统的C/C++项目中提取的源码-二进制配对数据,为基于深度学习的反编译与代码生成模型提供大规模高质量训练资源。当前研究热点集中于利用此类数据提升反编译工具的可读性、准确性与跨平台适配能力,同时探索构建系统信息在代码语义恢复与优化过程中的关键作用。这一方向不仅助力于漏洞分析、遗留系统维护等安全应用,也为构建智能化软件开发工具链提供了重要数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作