EFFIBENCH-X
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://github.com/EffiBench/EffiBench-X.git 和 https://huggingface.co/datasets/EffiBench/effibench-x
下载链接
链接失效反馈官方服务:
资源简介:
EFFIBENCH-X是一个多语言基准数据集,旨在衡量大型语言模型生成的代码效率。该数据集支持Python、C++、Java、JavaScript、Ruby和Golang等多种编程语言,并包含来自各种平台的竞争性编程任务和人类专家解决方案作为效率基准。数据集涵盖了复杂的问题,需要高级算法和数据结构,以更好地评估LLM在挑战性场景下的效率。此外,EFFIBENCH-X还提供了一个全面的评估框架,确保LLM生成的代码效率的可靠测量。该数据集适用于研究LLM优化技术,以改善各种编程语言中的代码效率。
EFFIBENCH-X is a multilingual benchmark dataset designed to evaluate the code efficiency generated by Large Language Models (LLMs). This dataset supports multiple programming languages including Python, C++, Java, JavaScript, Ruby, and Golang, and incorporates competitive programming tasks from various platforms alongside human expert solutions as efficiency benchmarks. It covers complex problems that require advanced algorithms and data structures, enabling more robust assessment of LLM efficiency in challenging scenarios. Furthermore, EFFIBENCH-X provides a comprehensive evaluation framework to ensure reliable measurement of the code efficiency generated by LLMs. This dataset is applicable for researching LLM optimization techniques to improve code efficiency across various programming languages.
提供机构:
香港大学, 伦敦大学学院, 新加坡国立大学, 南洋理工大学, 香港科技大学(广州), 香港科技大学, 蒙纳士大学, 澳大利亚联邦科学与工业研究组织的数据61部门, 伦敦国王学院
创建时间:
2025-05-19
搜集汇总
数据集介绍

构建方式
EFFIBENCH-X数据集的构建过程体现了严谨的科学方法论和创新的多语言评估框架。研究团队从多个竞技编程平台(包括Aizu、AtCoder、CodeChef等)精心筛选了623个效率关键型问题,特别关注2023年10月后发布的新问题以避免数据污染。每个问题配备六种编程语言(Python、C++、Java等)的规范解决方案,通过平台API、开源仓库和专家翻译三种渠道获取,并经过严格的正确性验证。测试套件采用LLM生成的测试用例生成器和解决方案评估器,包含100个多样化测试案例,通过沙盒化Docker环境确保评估的一致性和可靠性。
特点
作为首个多语言代码效率基准,EFFIBENCH-X具有三大核心特征:其六语言覆盖性突破了现有基准单语言局限,支持对编译器优化等语言特定要素的评估;采用竞技编程复杂问题构建,82%任务需高级算法设计,显著高于HumanEval等传统基准的难度水平;通过高分辨率性能分析器(10kHz采样)精确捕捉运行时与内存指标,提供执行时间、内存峰值和内存积分三个维度的量化评估。数据集特别设计了功能问题与标准I/O问题双维度结构,可分别评估算法核心效率和系统级实现能力。
使用方法
使用EFFIBENCH-X需遵循标准化评估流程:首先在受控Docker环境中执行待测代码,每个案例运行三次取中位数以减少系统波动。评估系统会自动比对LLM生成代码与人类专家方案的三项效率指标(ET/MP/MI),并计算相对效率百分比。研究者可通过HuggingFace接口获取问题-解决方案对,或使用提供的测试生成器扩展案例。对于新型语言评估,建议先验证测试模板与规范解决方案的兼容性。基准支持全自动评估和人工复核双模式,特别推荐对C++等系统语言进行汇编级优化分析以深入诊断效率瓶颈。
背景与挑战
背景概述
EFFIBENCH-X是由香港大学、伦敦大学学院、南洋理工大学等机构的研究团队于2025年推出的多语言代码效率评测基准。该数据集针对大语言模型生成的代码在运行效率和内存使用方面的评估需求,填补了现有基准主要关注功能正确性而忽视效率指标的空白。数据集包含623个来自AtCoder、Codeforces等竞技编程平台的任务,涵盖Python、C++、Java等六种编程语言,每个任务均配备经过验证的人类专家级优化方案作为效率基线。其创新性地采用高分辨率性能分析技术,为代码生成模型的优化能力评估提供了标准化测试框架。
当前挑战
构建EFFIBENCH-X面临三重挑战:首先需解决多语言效率评估的异构性问题,不同语言的编译器优化策略和内存管理机制导致效率指标难以横向比较;其次要规避数据污染风险,通过筛选2023年10月后发布的新题避免模型记忆干扰;最后需设计复杂度足够的任务,现有基准中简单任务无法有效区分模型优化能力。评测结果显示,即使最佳模型生成的代码效率仅达人类水平的62%,且在静态类型语言中表现显著弱于动态类型语言,突显了跨语言代码优化的技术瓶颈。
常用场景
经典使用场景
在大型语言模型(LLM)生成的代码评估领域,EFFIBENCH-X数据集通过多语言支持的基准测试,为研究人员提供了一个全面衡量代码效率的工具。该数据集特别适用于评估模型在Python、C++、Java、JavaScript、Ruby和Go等多种编程语言中生成的代码执行时间和内存使用效率。通过包含竞争性编程任务和人类专家解决方案作为基准,EFFIBENCH-X能够精确比较模型生成代码与人类专家代码之间的性能差距。
解决学术问题
EFFIBENCH-X解决了当前代码生成基准测试中语言多样性不足、数据污染和任务复杂度有限等关键问题。通过支持六种编程语言,该数据集填补了现有基准测试主要集中于Python的空白,使得研究者能够更全面地评估模型在不同语言环境下的表现。此外,EFFIBENCH-X采用近期发布的竞争性编程任务,有效避免了模型在训练数据中见过测试问题的情况,从而确保了评估结果的真实性和可靠性。
衍生相关工作
EFFIBENCH-X的推出催生了一系列相关研究和工作,特别是在代码效率优化和多语言代码生成领域。例如,基于该数据集的评估结果,研究者开发了新的优化技术,如Swiftcoder和EffiLearner,这些技术专注于通过微调和改进模型架构来提升生成代码的效率。此外,EFFIBENCH-X还启发了其他多语言基准测试的开发,如HumanEval-X和MBXP,进一步推动了代码生成领域的多样化和全面性研究。
以上内容由遇见数据集搜集并总结生成



