nuprl/MultiPL-E
收藏Hugging Face2025-07-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nuprl/MultiPL-E
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要由机器生成和专家生成,主要语言为英语,且为单语种。数据集的大小范围在1K到10K之间,源自原始和扩展的数据源,如OpenAI HumanEval和MBPP。数据集包含多个配置,每个配置都有特定的特征,如名称、语言、提示、文档测试、原始内容、提示术语、测试和停止标记。每个配置还详细说明了测试分割的字节数、示例数、下载大小和数据集大小。
The dataset is primarily machine-generated and expert-generated, mainly in English, and is monolingual. The dataset falls within the size range of 1K to 10K and is derived from original and extended sources such as OpenAI HumanEval and MBPP. The dataset includes multiple configurations, each with specific features such as name, language, prompt, doctests, original content, prompt terminology, tests, and stop tokens. Each configuration also details the number of bytes, examples, download size, and dataset size for the test split.
提供机构:
nuprl
原始信息汇总
数据集概述
基本信息
- 数据集名称: MultiPLE-E
- 语言: 英语(en)
- 语言创建方式: 机器生成和专家生成
- 许可证: MIT
- 多语言性: 单语(monolingual)
- 大小: 1K<n<10K
- 来源: 原始数据集,扩展自openai_humaneval和mbpp
数据集结构
- 配置名称: 多个配置,包括cpp-keep, cpp-transform, cpp-reworded, cpp-remove, cs-keep, cs-transform, cs-reworded, cs-remove, d-keep, d-transform, d-reworded, d-remove, go-keep, go-transform, go-reworded, go-remove, java-keep, java-transform, java-reworded, java-remove, jl-keep, jl-transform, jl-reworded, jl-remove, js-keep, js-transform, js-reworded, js-remove, lua-keep, lua-transform, lua-reworded, lua-remove, php-keep, php-transform, php-reworded, php-remove, pl-keep, pl-transform, pl-reworded, pl-remove, py-keep, py-transform, py-reworded, py-remove
- 特征:
- name: 字符串
- language: 字符串
- prompt: 字符串
- doctests: 字符串
- original: 字符串
- prompt_terminology: 字符串
- tests: 字符串
- stop_tokens: 序列,字符串
- 分割:
- test: 每个配置的测试数据大小和示例数不同,具体数据见下表
数据集大小
- 下载大小: 每个配置的下载大小不同,范围从207009到319856字节
- 数据集大小: 每个配置的数据集大小不同,范围从145913到288031字节
示例数据集大小
| 配置名称 | 测试数据大小(字节) | 示例数 |
|---|---|---|
| cpp-keep | 217792 | 161 |
| cpp-transform | 239517 | 161 |
| cpp-reworded | 239767 | 161 |
| cpp-remove | 198566 | 158 |
| cs-keep | 259874 | 158 |
| cs-transform | 283738 | 158 |
| cs-reworded | 283673 | 158 |
| cs-remove | 237663 | 155 |
| ... | ... | ... |
| py-keep | 173537 | 161 |
| py-transform | 177787 | 161 |
| py-reworded | 177787 | 161 |
| py-remove | 158619 | 158 |
以上信息概述了MultiPLE-E数据集的基本信息、结构、大小和示例数据集大小。
搜集汇总
数据集介绍

构建方式
MultiPLE-E数据集的构建主要依托于机器生成与专家生成的语言,涵盖了多种编程语言,如ADB、CLJ、CPP等。数据集的构建过程中,采用了来自原始数据集以及OpenAI Humaneval和MBPP等扩展数据集的资源,从而确保了数据集的多样性和广泛性。
特点
该数据集的一大特点是单语言特性,即所有数据均以英语呈现,方便研究者进行跨语言比较。此外,数据集包含了丰富的编程任务,如测试、代码提示等,为编程语言理解和代码生成任务提供了良好的数据基础。
使用方法
使用MultiPLE-E数据集时,首先需要下载相应配置的数据集。下载后,可以通过配置文件中的特征字段,如name、language、prompt等,对数据进行访问。例如,可以通过name字段获取每个编程任务的名称,通过language字段获取编程语言的类型,通过prompt字段获取编程任务的提示信息等。
背景与挑战
背景概述
在编程语言领域,代码理解和生成是一项基础且关键的研究任务。为了推动这一领域的发展,研究人员创建了多种数据集,旨在为代码理解模型提供训练和评估的资源。MultiPL-E数据集便是其中之一,它由nuprl团队创建,旨在为编程语言理解和生成任务提供支持。该数据集于近年来构建,包含了机器生成和专家生成的多种编程语言的代码示例。这些示例涵盖了不同编程语言的特点,为研究者在代码理解和生成方面提供了丰富的数据资源。MultiPL-E数据集的出现,对编程语言理解和生成领域的研究具有重要意义,有助于推动相关技术的进步。
当前挑战
MultiPL-E数据集虽然提供了丰富的编程语言代码示例,但仍然面临着一些挑战。首先,编程语言的多样性和复杂性使得数据集的构建和标注过程变得困难。其次,数据集的规模和多样性也对其在特定编程语言上的应用提出了挑战。此外,如何利用MultiPL-E数据集进行有效的模型训练和评估也是当前研究的一个热点问题。因此,针对这些挑战,研究人员需要不断探索新的方法和技术,以提高编程语言理解和生成模型的性能和泛化能力。
常用场景
经典使用场景
在计算机编程语言的学习与研究中,MultiPLE-E数据集提供了一个宝贵的资源。该数据集包含了丰富多样的编程任务和挑战,旨在帮助研究人员评估和开发编程语言模型。数据集的经典使用场景之一是编程语言模型的评估,研究者可以使用数据集中的编程任务和测试案例来评估编程语言模型在不同编程语言和任务上的性能。此外,数据集还可用于编程语言模型的开发,通过对数据集中的编程任务进行学习和优化,研究者可以开发出更加智能和高效的编程语言模型。
解决学术问题
在学术界,编程语言模型的评估和开发一直是一个具有挑战性的问题。传统的评估方法往往依赖于手动设计的测试案例,这些案例可能无法全面覆盖编程语言的各个方面。MultiPLE-E数据集的引入解决了这一问题,通过提供大量的编程任务和测试案例,使得编程语言模型的评估更加全面和客观。此外,数据集的多语言特性也为编程语言模型的研究提供了新的思路和方向。
衍生相关工作
MultiPLE-E数据集的推出激发了众多相关研究工作的开展。例如,基于该数据集的编程语言模型研究不断涌现,这些模型在代码生成、代码理解和代码调试等方面取得了显著的成果。此外,数据集的多语言特性也为跨语言编程语言模型的研究提供了新的可能性,推动了编程语言模型在多语言环境下的应用和发展。
以上内容由遇见数据集搜集并总结生成



