five

BinMetric

收藏
arXiv2025-05-12 更新2025-05-14 收录
下载链接:
http://arxiv.org/abs/2505.07360v1
下载链接
链接失效反馈
官方服务:
资源简介:
BinMetric是一个全面的数据集,用于评估大型语言模型在二进制分析任务上的性能。该数据集包含来自20个真实开源项目的1000个问题,涵盖了6个实际二进制分析任务,包括反编译、代码摘要、汇编指令生成等,反映了实际的逆向工程场景。数据集的设计考虑了真实二进制分析场景的复杂性,旨在提供一个标准化的评估框架,以评估大型语言模型在关键领域的有效性。

BinMetric is a comprehensive dataset designed to evaluate the performance of large language models (LLMs) on binary analysis tasks. It contains 1000 questions sourced from 20 real-world open-source projects, covering 6 practical binary analysis tasks including "decompilation", "code summarization", "assembly instruction generation", and others, which reflects real-world reverse engineering scenarios. The dataset is developed with full consideration of the complexity of actual binary analysis scenarios, aiming to provide a standardized evaluation framework for assessing the effectiveness of large language models in key domains.
提供机构:
中国科学技术大学
创建时间:
2025-05-12
原始信息汇总

BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models

数据集概述

  • 标题: BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models
  • 作者: Xiuwei Shang, Guoqiang Chen, Shaoyin Cheng, Benlong Wu, Li Hu, Gangyang Li, Weiming Zhang, Nenghai Yu
  • 提交日期: 12 May 2025
  • 领域: Computer Science > Software Engineering
  • arXiv标识符: arXiv:2505.07360v1 [cs.SE]
  • DOI: https://doi.org/10.48550/arXiv.2505.07360

数据集详情

  • 摘要:

    • BinMetric是一个专门用于评估大型语言模型在二进制分析任务上性能的综合基准。
    • 包含1,000个问题,源自20个真实世界的开源项目,涵盖6个实用的二进制分析任务(如反编译、代码摘要、汇编指令生成等)。
    • 旨在反映实际逆向工程场景,填补该领域标准化基准的空白。
    • 通过实证研究揭示了当前最先进大型语言模型在二进制分析中的优势和局限性。
  • 任务类型:

    • 反编译
    • 代码摘要
    • 汇编指令生成
    • 其他二进制分析任务
  • 数据来源:

    • 20个真实世界的开源项目

相关论文信息

  • 评论: 23页,5张图,将发表于IJCAI 2025
  • 引用格式: arXiv:2505.07360 [cs.SE]

访问链接

搜集汇总
数据集介绍
main_image_url
构建方式
在软件安全领域,二进制分析对于理解编译程序的功能至关重要,尤其是在缺乏源代码的情况下。BinMetric数据集的构建采用了系统化的方法,从20个真实世界的开源项目中提取了1000个问题,涵盖了6种实际的二进制分析任务,包括反编译、代码摘要和汇编指令生成等。数据预处理阶段涉及编译、剥离符号信息、反汇编和源代码信息提取,确保了数据的多样性和高质量。此外,通过二进制-源代码对齐技术,确保了数据的准确性和一致性。
特点
BinMetric数据集的特点在于其全面性和真实性。数据集涵盖了多种二进制分析任务,反映了实际逆向工程场景中的复杂性和多样性。数据来源于多个领域的开源项目,确保了数据的高质量和可信度。此外,数据集经过严格的过滤和检查,避免了数据泄露问题,确保了评估的可靠性。BinMetric还提供了自动化的评估流程,便于研究人员快速进行模型评估。
使用方法
BinMetric数据集的使用方法包括多个步骤。首先,研究人员可以通过数据集提供的自动化评估流程,对各种大型语言模型在二进制分析任务中的表现进行评估。数据集支持多种评估指标,如Rouge-L和CodeBLEU,用于衡量模型在反编译和代码摘要等任务中的表现。此外,数据集还提供了详细的预处理和构建指南,帮助研究人员复现和扩展实验。通过BinMetric,研究人员可以系统地评估和比较不同模型在二进制分析领域的性能,推动相关研究的进展。
背景与挑战
背景概述
BinMetric是由中国科学技术大学与奇安信技术研究院的研究团队于2025年提出的首个面向大语言模型的二进制分析基准测试框架。该数据集聚焦软件安全领域的核心挑战——在缺乏源代码的情况下,通过逆向工程分析编译后的二进制程序。随着大语言模型在代码理解与生成任务中的卓越表现,其在解析复杂二进制数据结构方面的潜力日益凸显。BinMetric包含从20个真实开源项目中提取的1000个问题项,覆盖反编译、代码摘要、汇编指令生成等6类典型逆向工程场景,填补了该领域标准化评估体系的空白,为衡量大语言模型在二进制分析任务中的能力提供了科学依据。
当前挑战
BinMetric面临的挑战主要体现在两个维度:领域问题层面,二进制代码的非直观性导致语义理解困难,不同指令集架构和编译器优化带来的变体增加了分析的复杂性;构建过程层面,需解决真实二进制样本的多样性获取、跨平台编译环境标准化、二进制-源代码对齐验证等技术难题。特别是汇编级指令的精确转换、函数调用关系重建等任务,对模型的低级语义理解和结构化推理能力提出了极高要求。此外,确保评估数据未泄露至模型训练集,以及设计兼顾任务广度和深度的评估指标体系,也是构建过程中的关键挑战。
常用场景
经典使用场景
在软件安全领域,二进制分析是理解编译后程序行为的关键技术,尤其在缺乏源代码的情况下。BinMetric数据集通过提供来自20个真实开源项目的1000个问题,覆盖了包括反编译、代码摘要、汇编指令生成等6种典型二进制分析任务,为评估大型语言模型(LLMs)在此领域的性能提供了标准化基准。该数据集特别适用于研究LLMs在逆向工程场景中的实际表现,例如从二进制代码中恢复高级语义信息或生成准确的汇编指令。
解决学术问题
BinMetric解决了二进制分析领域缺乏标准化评估框架的核心问题。通过系统化数据收集和预处理流程,该数据集为研究者提供了可复现的实验基础,支持对LLMs在多种二进制任务(如函数签名恢复、算法分类)中的能力进行量化比较。其创新性在于首次将现实工程中的多维度挑战(如跨项目多样性、代码混淆复杂性)融入评估体系,填补了传统方法在高层语义提取和自动化分析效率上的理论空白,推动了AI驱动的二进制分析技术发展。
衍生相关工作
基于BinMetric的评估范式,衍生出多项重要研究工作。例如LLM4Decompile通过微调DeepSeek-Coder模型提升反编译准确率;HexT5则利用该数据集验证了预训练模型在二进制代码摘要任务中的优势。这些工作不仅验证了BinMetric作为基准的可靠性,还推动了二进制专用LLM(如结合检索增强生成技术的专家模型)的架构创新。后续研究进一步扩展了其在混淆代码分析、跨架构指令转换等方向的评估维度,形成持续演进的技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作