THUDM/humaneval-x|代码生成数据集|多语言评估数据集

hugging_face2022-10-25 更新2024-03-04 收录

代码生成

多语言评估

下载链接：

https://hf-mirror.com/datasets/THUDM/humaneval-x

下载链接

链接失效反馈

资源简介：

HumanEval-X是一个用于评估代码生成模型多语言能力的基准数据集。它包含820个高质量的人工编写的数据样本，涵盖Python、C++、Java、JavaScript和Go五种编程语言，每个样本都包含测试用例。该数据集可用于代码生成和翻译等任务。

提供机构：

THUDM

原始信息汇总

HumanEval-X

数据集描述

HumanEval-X 是一个用于评估代码生成模型多语言能力的基准测试。它包含 820 个高质量的人工编写数据样本（每个样本包含测试用例），涵盖 Python、C++、Java、JavaScript 和 Go 五种编程语言，可用于代码生成和翻译等多种任务。

语言

数据集包含五种编程语言的编程问题：Python、C++、Java、JavaScript 和 Go。

数据集结构

加载数据集时，需要指定五种可用语言之一 [python, cpp, go, java, js]。默认加载 python。

python from datasets import load_dataset load_dataset("THUDM/humaneval-x", "js")

DatasetDict({ test: Dataset({ features: [task_id, prompt, declaration, canonical_solution, test, example_test], num_rows: 164 }) })

python next(iter(data["test"])) {task_id: JavaScript/0, prompt: /* Check if in given list of numbers, are any two numbers closer to each other than given threshold.

hasCloseElements([1.0, 2.0, 3.0], 0.5) false hasCloseElements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3) true */ const hasCloseElements = (numbers, threshold) => { , declaration: const hasCloseElements = (numbers, threshold) => { , canonical_solution: for (let i = 0; i < numbers.length; i++) { for (let j = 0; j < numbers.length; j++) { if (i != j) { let distance = Math.abs(numbers[i] - numbers[j]); if (distance < threshold) { return true; } } } } return false; }

, test: const testHasCloseElements = () => { console.assert(hasCloseElements([1.0, 2.0, 3.9, 4.0, 5.0, 2.2], 0.3) === true) console.assert( hasCloseElements([1.0, 2.0, 3.9, 4.0, 5.0, 2.2], 0.05) === false ) console.assert(hasCloseElements([1.0, 2.0, 5.9, 4.0, 5.0], 0.95) === true) console.assert(hasCloseElements([1.0, 2.0, 5.9, 4.0, 5.0], 0.8) === false) console.assert(hasCloseElements([1.0, 2.0, 3.0, 4.0, 5.0, 2.0], 0.1) === true) console.assert(hasCloseElements([1.1, 2.2, 3.1, 4.1, 5.1], 1.0) === true) console.assert(hasCloseElements([1.1, 2.2, 3.1, 4.1, 5.1], 0.5) === false) }

testHasCloseElements() , example_test: const testHasCloseElements = () => { console.assert(hasCloseElements([1.0, 2.0, 3.0], 0.5) === false) console.assert( hasCloseElements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3) === true ) } testHasCloseElements() }

数据字段

task_id：指示目标语言和问题的ID。语言为 ["Python", "Java", "JavaScript", "CPP", "Go"] 之一。
prompt：函数声明和文档字符串，用于代码生成。
declaration：仅函数声明，用于代码翻译。
canonical_solution：人工编写的示例解决方案。
test：隐藏的测试样本，用于评估。
example_test：公开的测试样本（出现在提示中），用于评估。

数据分割

每个子集有一个分割：test。

AI搜集汇总

数据集介绍

构建方式

HumanEval-X数据集的构建过程体现了对多语言代码生成模型评估的深度需求。该数据集由820个高质量的人工编写样本组成，涵盖了Python、C++、Java、JavaScript和Go五种编程语言。每个样本均包含测试用例，确保了数据的多样性和实用性。数据集的构建依赖于众包和专家生成的方式，确保了样本的准确性和代表性。

特点

HumanEval-X数据集的特点在于其多语言覆盖和高质量的人工编写样本。数据集不仅支持五种主流编程语言，还提供了详细的函数声明、文档字符串、标准解决方案以及测试用例。这些特征使得该数据集能够广泛应用于代码生成、代码翻译等任务，并为模型的多语言能力评估提供了坚实的基础。

使用方法

使用HumanEval-X数据集时，用户需指定目标编程语言子集，如Python、C++等。通过加载数据集，用户可以访问每个样本的任务ID、提示、声明、标准解决方案以及测试用例。这些数据字段为模型的训练和评估提供了全面的支持。用户可以通过简单的代码调用，快速加载并迭代数据集中的样本，进行模型性能的测试与优化。

背景与挑战

背景概述

HumanEval-X数据集由清华大学计算机系（THUDM）开发，旨在评估多语言代码生成模型的能力。该数据集包含820个高质量的人工编写样本，涵盖Python、C++、Java、JavaScript和Go五种编程语言，每个样本均附带测试用例。HumanEval-X的创建标志着代码生成领域的一个重要里程碑，特别是在多语言环境下，为研究人员提供了一个标准化的基准工具，推动了代码生成和翻译任务的研究进展。

当前挑战

HumanEval-X数据集在解决多语言代码生成问题时面临多重挑战。首先，不同编程语言的语法和语义差异显著，如何确保生成的代码在多种语言中均能正确执行是一个核心难题。其次，数据集的构建依赖于高质量的人工编写样本，这对数据的一致性和覆盖范围提出了严格要求。此外，测试用例的设计需要兼顾全面性和复杂性，以确保模型在不同场景下的鲁棒性。这些挑战不仅体现在数据集的构建过程中，也直接影响其在实际应用中的效果。

常用场景

经典使用场景

HumanEval-X数据集主要用于评估多语言代码生成模型的能力。该数据集包含Python、C++、Java、JavaScript和Go五种编程语言的高质量代码样本，每个样本均配有测试用例。研究人员可以利用这些样本进行代码生成、代码翻译等任务的模型训练与评估，从而验证模型在不同编程语言环境下的表现。

衍生相关工作

HumanEval-X的发布催生了一系列相关研究工作。例如，基于该数据集的多语言代码生成模型CodeGeeX在开源社区中获得了广泛关注。此外，许多研究团队利用该数据集开发了新的评估指标和训练方法，进一步推动了多语言代码生成领域的技术进步。这些衍生工作不仅验证了数据集的实用性，也为后续研究提供了丰富的参考和借鉴。

数据集最近研究

最新研究方向

在代码生成与多语言编程模型评估领域，HumanEval-X数据集作为一项重要的基准测试工具，近年来受到了广泛关注。该数据集涵盖了Python、C++、Java、JavaScript和Go五种编程语言的高质量代码样本，为研究多语言代码生成模型的性能提供了丰富的数据支持。当前的研究热点主要集中在如何利用该数据集评估模型在不同编程语言间的泛化能力，以及探索跨语言代码翻译的可行性。随着多语言编程需求的增长，HumanEval-X在推动代码生成技术的进步、提升开发效率方面具有重要意义，同时也为学术界和工业界提供了新的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张，舌诊图片的内容部分为舌头（属口颌系统），面诊图片的内容部分包括了面和唇（属其他系统）、眼睛部分做了脱敏处理，目诊图片的内容部分为眼睛（属感觉系统）。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息；以及面诊图像的唇色、唇形、面神的标注信息；目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心收录

长江干流实时水位观测数据集（2024年）

该数据集为长江干流主要水文站实时水位观测数据集，包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。该数据集包含3个excel表格文件，长江干流站点.xls，逐日水位.xlsx，逐小时水位.xlsx。

国家地球系统科学数据中心收录