MultiPL-E-fixed

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/jsbyun121/MultiPL-E-fixed

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个针对OCaml、Lua、R、Racket和Julia编程语言的修正版本测试数据集，用于评估大型语言模型在这些语言上的性能。该数据集解决了原始数据集中的逻辑错误、不一致性和语言特定问题，以提供更可靠和准确的评估基准。

创建时间：

2025-09-01

原始信息汇总

MultiPL-E-fixed 数据集概述

数据集基本信息

数据集名称: MultiPL-E-fixed
地址: https://huggingface.co/datasets/jsbyun121/MultiPL-E-fixed
来源: 对 nuprl/MultiPL-E 基准测试中 OCaml、Lua、R、Racket 和 Julia 部分的修正版本
原始仓库: https://github.com/nuprl/MultiPL-E
修正版本仓库: https://github.com/jsbyun121/MultiPL-E-fixed

数据集配置详情

配置列表

humaneval-jl: 159个示例，166,847字节
humaneval-lua: 161个示例，183,781字节
humaneval-ml: 155个示例，169,678字节
humaneval-r: 161个示例，198,952字节
humaneval-rkt: 161个示例，195,422字节

特征结构

所有配置包含相同特征字段：

name: 字符串类型
language: 字符串类型
prompt: 字符串类型
doctests: 字符串类型
original: 字符串类型
prompt_terminology: 字符串类型
tests: 字符串类型
stop_tokens: 字符串类型

修正内容概述

逻辑问题修正

修正了原始数据集中多个提示和测试用例的逻辑错误：

HumanEval_75_is_multiply_prime: 解决指令与测试用例不匹配问题
HumanEval_92_any_int: 修正不符合问题要求的测试用例
HumanEval_116_sort_array: 修正排序标准与测试用例差异
HumanEval_128_prod_signs: 修正提示文档字符串中的错误示例
HumanEval_140_fix_spaces: 修正错误测试用例
HumanEval_142_sum_squares: 修复损坏或语法错误的示例
HumanEval_145_order_by_points: 澄清模糊逻辑，提供更精确的问题陈述
HumanEval_148_bf: 修正示例与主要指令之间的矛盾
HumanEval_151_double_the_difference: 替换产生无效结果的错误测试用例
HumanEval_162_string_to_md5: 修正语言特定 None/null 数据类型的处理

通用提示模糊性修正

为数组/列表索引解释模糊的提示添加澄清，明确强制执行基于0的约定

语言特定修正

R: 修正空向量处理的常见边界情况
OCaml: 修正一元运算符的错误使用以符合OCaml语法
Julia: 解决由三引号文档字符串字符引起的解析问题

使用方式

作为官方MultiPL-E数据的直接替代品
数据结构与标准评估框架保持兼容
替换原始 humaneval-[lang] 文件即可使用修正版本

引用要求

使用本数据集需引用原始MultiPL-E论文并承认本修正版本仓库

搜集汇总

数据集介绍

构建方式

MultiPL-E-fixed数据集基于原始MultiPL-E基准进行构建，针对其中OCaml、Lua、R、Racket和Julia五种编程语言存在的逻辑错误与语言特性问题进行了系统性修正。构建过程通过深入分析原始测试用例与提示词的语义一致性，针对性地修复了包括HumanEval_75_is_multiply_prime等十余个关键问题的指令歧义、测试案例矛盾及语法错误，并特别优化了语言特定特性如R语言空向量处理和Julia三引号解析问题，最终形成结构兼容的标准化测试集。

特点

该数据集显著特征体现在其精准的语言逻辑校正与跨语言一致性保障。针对不同编程语言的语法范式，数据集不仅修正了原始版本中存在的逻辑矛盾点，如函数签名与测试用例的不匹配问题，还专门强化了零基索引的明确规范以消除语义歧义。每个语言配置均包含完整的提示词、终止标记和测试用例，确保了评估过程中模型输出与预期标准的精确对齐，为多语言代码生成能力评估提供了高可靠度的基准框架。

使用方法

使用本数据集时，研究者可直接将其作为原始MultiPL-E基准的替代组件集成至现有评估流程。通过加载对应编程语言的配置文件（如humaneval-jl），即可获取经过校正的提示词、测试用例及终止标记集合。评估框架只需将原数据路径指向修正后的文件，无需修改核心评估逻辑即可获得更准确的模型性能指标，特别适用于大语言模型在跨语言代码生成任务中的公平性比较与能力验证。

背景与挑战

背景概述

MultiPL-E数据集由美国东北大学、韦尔斯利学院等机构的研究团队于2023年联合创建，旨在构建一个大规模多编程语言的代码生成评估基准。该数据集扩展自OpenAI的HumanEval基准，覆盖22种编程语言，通过系统化翻译和适配策略解决了跨语言代码生成评估的标准化问题。其创新性体现在将单语言评估框架拓展为多语言维度，为衡量大语言模型在多样化编程环境中的性能提供了重要基础设施，推动了代码生成研究从单一语言向多语言范式的转变。

当前挑战

该数据集核心挑战在于解决多语言代码生成评估中的语义一致性与语言特性适配问题。原始版本存在逻辑错误、测试用例与问题描述不匹配、语言特定语法处理缺陷等系统性偏差，例如OCaml的单目运算符误用、R语言的空向量处理以及Julia的三引号解析异常。构建过程中需克服不同编程语言范式差异带来的表征不一致性，确保翻译过程保持功能对等性，同时维护测试用例的准确性和提示词的无歧义性，这对跨语言评估的公平性和可靠性提出了极高要求。

常用场景

经典使用场景

在编程语言处理领域，MultiPL-E-fixed数据集作为多语言代码生成评估基准，专门用于测试大语言模型在OCaml、Lua、R、Racket和Julia五种编程语言中的代码合成能力。其经典使用场景包括模型生成代码的功能正确性验证，通过标准化的测试用例对模型输出进行自动化评估，为跨语言代码生成研究提供可靠性能指标。

实际应用

在实际工业应用中，该数据集被广泛用于开发多语言编程助手、自动化代码审查工具和智能编程教育系统。科技公司利用其评估模型在特定语言生态中的适用性，例如验证R语言统计计算模块或Julia科学计算代码的生成质量，推动跨语言开发工具的精准化发展。

衍生相关工作

基于该数据集衍生的经典工作包括多模态代码生成模型CrossCoder、支持22种语言的评估框架PolyBench，以及针对函数式编程语言的专项评测体系FP-Eval。这些研究显著推进了多语言代码生成的技术边界，并为后续研究提供了可扩展的评估范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集