openai/openai_humaneval

Name: openai/openai_humaneval
Creator: openai
Published: 2024-01-04 16:08:05
License: 暂无描述

Hugging Face2024-01-04 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/openai/openai_humaneval

下载链接

链接失效反馈

官方服务：

资源简介：

OpenAI HumanEval数据集是一个用于代码生成任务的数据集，包含164个编程问题。这些问题由OpenAI的工程师和研究人员手工编写，以确保它们不会出现在代码生成模型的训练集中。数据集的结构包括任务ID、提示、规范解决方案、测试代码和入口点。数据集仅包含一个测试集，且所有问题都是用Python编写的，注释和文档字符串中包含英文自然文本。

The OpenAI HumanEval dataset is a benchmark dataset designed for code generation tasks, which includes 164 programming problems. These problems were manually authored by OpenAI engineers and researchers to ensure they are not present in the training corpora of code generation models. The dataset's structure encompasses task IDs, prompts, canonical solutions, test code, and entry points. It only contains a single test split, with all problems written in Python and English natural language text included in their comments and docstrings.

提供机构：

openai

原始信息汇总

OpenAI HumanEval 数据集概述

数据集描述

数据集摘要

OpenAI HumanEval 数据集包含 164 个编程问题，每个问题包括函数签名、文档字符串、函数体和多个单元测试。这些问题是手工编写的，以确保它们不包含在代码生成模型的训练集中。

支持的任务和排行榜

该数据集主要用于文本到文本生成任务。

语言

编程问题以 Python 编写，并包含英文自然文本的注释和文档字符串。

数据集结构

数据实例

一个数据集实例的示例： json { "task_id": "test/0", "prompt": "def return1(): ", "canonical_solution": " return 1", "test": "def check(candidate): assert candidate() == 1", "entry_point": "return1" }

数据字段

task_id: 数据样本的标识符
prompt: 包含函数头和文档字符串的模型输入
canonical_solution: prompt 问题的解决方案
test: 包含用于测试生成代码正确性的函数
entry_point: 测试的入口点

数据分割

数据集仅包含一个测试分割，包含 164 个样本。

数据集创建

策划理由

由于代码生成模型通常在 GitHub 转储上进行训练，因此需要一个不包含在转储中的数据集来正确评估模型。然而，由于该数据集已发布在 GitHub 上，它可能会包含在未来的转储中。

源数据

数据集由 OpenAI 的工程师和研究人员手工制作。

个人和敏感信息

数据集中不包含个人和敏感信息。

使用数据的注意事项

在评估此数据集时，请确保在安全环境中执行生成的 Python 代码，因为生成的代码可能有害。

数据集的社会影响

通过此数据集，可以更好地评估代码生成模型，从而在使用此类模型时减少引入的问题。

附加信息

数据集策展人

OpenAI

许可信息

MIT 许可证

引用信息

bibtex @misc{chen2021evaluating, title={Evaluating Large Language Models Trained on Code}, author={Mark Chen and Jerry Tworek and Heewoo Jun and Qiming Yuan and Henrique Ponde de Oliveira Pinto and Jared Kaplan and Harri Edwards and Yuri Burda and Nicholas Joseph and Greg Brockman and Alex Ray and Raul Puri and Gretchen Krueger and Michael Petrov and Heidy Khlaaf and Girish Sastry and Pamela Mishkin and Brooke Chan and Scott Gray and Nick Ryder and Mikhail Pavlov and Alethea Power and Lukasz Kaiser and Mohammad Bavarian and Clemens Winter and Philippe Tillet and Felipe Petroski Such and Dave Cummings and Matthias Plappert and Fotios Chantzis and Elizabeth Barnes and Ariel Herbert-Voss and William Hebgen Guss and Alex Nichol and Alex Paino and Nikolas Tezak and Jie Tang and Igor Babuschkin and Suchir Balaji and Shantanu Jain and William Saunders and Christopher Hesse and Andrew N. Carr and Jan Leike and Josh Achiam and Vedant Misra and Evan Morikawa and Alec Radford and Matthew Knight and Miles Brundage and Mira Murati and Katie Mayer and Peter Welinder and Bob McGrew and Dario Amodei and Sam McCandlish and Ilya Sutskever and Wojciech Zaremba}, year={2021}, eprint={2107.03374}, archivePrefix={arXiv}, primaryClass={cs.LG} }

贡献

感谢 @lvwerra 添加此数据集。

搜集汇总

数据集介绍

构建方式

OpenAI HumanEval数据集的构建，是由OpenAI的工程师和研究人员手工制作而成，旨在创建一个未被代码生成模型训练集包含的编程问题集。该数据集包含了164个编程问题，每个问题都包含函数签名、文档字符串、函数体以及多个单元测试。这些问题被设计为能够对代码生成模型进行有效的评估，确保其生成代码的能力。

特点

该数据集的特点在于其专业性和针对性。所有编程问题均采用Python编写，并在注释和文档字符串中包含英语自然文本。数据集的结构包括任务标识符、输入提示、标准解决方案、测试用例和入口点等字段，且仅包含一个测试数据集分割，含有164个样本。此外，数据集遵循MIT许可，保证了其使用的开放性和灵活性。

使用方法

在使用OpenAI HumanEval数据集时，用户需要确保在一个安全的环境中执行生成的Python代码，以避免潜在的危害。该数据集可用于评估代码生成模型的性能，有助于推动模型向更安全、更可靠的方向发展。用户可以从HuggingFace的仓库中加载数据集，并根据任务需求对生成的代码进行测试和验证。

背景与挑战

背景概述

OpenAI HumanEval数据集是由OpenAI的研究团队于2021年构建的，旨在评估基于代码训练的大型语言模型。该数据集包含164个编程问题，每个问题都包含函数签名、文档字符串、函数体以及多个单元测试，这些问题均为人工编写，以确保不包含在代码生成模型的训练集中。HumanEval数据集的发布对代码生成模型的研究与评估领域产生了显著影响，为研究者提供了一个公正的评价基准。

当前挑战

该数据集在构建过程中所遇到的挑战主要包括：确保编程问题的质量和难度，以及测试的全面性和准确性。此外，由于数据集是手工制作的，因此其规模有限，可能无法充分覆盖所有可能的代码生成场景。在使用过程中，还需考虑执行生成的Python代码的安全性，因为生成的代码可能具有潜在的危害。针对数据集的局限性，未来研究需要在扩大数据规模的同时，提高数据的质量和多样性。

常用场景

经典使用场景

在人工智能编程评估领域，OpenAI HumanEval数据集以其独特的构造和设计理念，成为了评估大型代码生成模型性能的重要工具。该数据集包含164个编程问题，每个问题都包含函数签名、文档字符串、函数体和多个单元测试，这些问题是手工编写的，确保不在代码生成模型的训练集中。因此，其经典的使用场景主要在于为研究者提供了一个评估和测试代码生成模型能力的标准化平台。

实际应用

在实际应用中，OpenAI HumanEval数据集可以帮助开发者更好地理解和评估其代码生成模型的性能。通过对模型在数据集上的表现进行分析，开发者可以识别模型的优势和不足，进而优化模型，提高其在真实编程任务中的实用性。此外，该数据集也可用于教育和培训，帮助学习者理解编程评估的标准和方法。

衍生相关工作

基于OpenAI HumanEval数据集，学术界和工业界衍生出了许多相关工作。研究者们利用该数据集对不同的代码生成模型进行了比较研究，探索了模型在不同编程任务中的表现差异。同时，也有工作专注于改进数据集本身，例如通过增加问题数量和多样性，进一步提高数据集的评估质量。这些衍生工作推动了代码生成技术的进步，为编程自动化领域的发展做出了贡献。

以上内容由遇见数据集搜集并总结生成