humaneval_infilling

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/Sculpt-AI/humaneval_infilling

下载链接

链接失效反馈

官方服务：

资源简介：

HumanEval-Infilling 是一个用于代码填充任务的基准数据集，源自用于评估代码生成模型的 HumanEval 基准。该数据集包含四个子集：HumanEval-MultiLineInfilling、HumanEval-SingleLineInfilling、HumanEval-RandomSpanInfilling 和 HumanEval-RandomSpanInfillingLight，分别包含 5815、1033、1640 和 164 个任务。每个数据条目包含以下特征：task_id、entry_point、prompt、suffix、canonical_solution 和 test。该数据集适用于文本到文本生成任务，特别是代码生成领域的研究和评估。

HumanEval-Infilling 是一款面向代码填充任务的基准数据集，其源自用于评估代码生成模型的HumanEval基准（HumanEval benchmark）。该数据集包含四个子集，分别为HumanEval-MultiLineInfilling、HumanEval-SingleLineInfilling、HumanEval-RandomSpanInfilling 与 HumanEval-RandomSpanInfillingLight，各子集包含的任务数量依次为5815、1033、1640及164个。每条数据条目均包含以下特征字段：task_id、entry_point、prompt、suffix、canonical_solution 及 test。本数据集适用于文本到文本生成（text-to-text generation）任务，尤其可用于代码生成领域的相关研究与模型评估工作。

创建时间：

2026-04-07

原始信息汇总

OpenAI HumanEval-Infilling 数据集概述

数据集基本信息

数据集名称： OpenAI HumanEval-Infilling
创建者： 专家生成
语言： 代码
许可协议： MIT
多语言性： 单语言
任务类别： 文本到文本生成
标签： 代码生成

数据集来源

源数据集： 原始创建
相关仓库： https://github.com/openai/human-eval-infilling
相关论文： https://arxiv.org/pdf/2207.14255

数据集简介

HumanEval-Infilling 是一个用于填充任务的基准测试数据集，源自用于评估代码生成模型的 HumanEval 基准测试。

数据集结构

数据集包含四个子集，加载时需要指定子集名称。默认加载的子集是 HumanEval-SingleLineInfilling。

数据特征

每个子集包含以下特征字段：

task_id
entry_point
prompt
suffix
canonical_solution
test

子集详情

HumanEval-MultiLineInfilling
- 数据文件路径：MultiLine/test.jsonl
- 任务数量：5,815
HumanEval-SingleLineInfilling
- 数据文件路径：SingleLine/test.jsonl
- 任务数量：1,033
HumanEval-RandomSpanInfilling
- 数据文件路径：RandomSpan/test.jsonl
- 任务数量：1,640
HumanEval-RandomSpanInfillingLight
- 数据文件路径：RandomSpanLight/test.jsonl
- 任务数量：164

使用示例

python from datasets import load_dataset ds = load_dataset("humaneval_infilling", "HumanEval-RandomSpanInfilling")

引用信息

@article{bavarian2022efficient, title={Efficient Training of Language Models to Fill in the Middle}, author={Bavarian, Mohammad and Jun, Heewoo and Tezak, Nikolas and Schulman, John and McLeavey, Christine and Tworek, Jerry and Chen, Mark}, journal={arXiv preprint arXiv:2207.14255}, year={2022} }

搜集汇总

数据集介绍

构建方式

在代码生成模型评估领域，HumanEval-Infilling数据集的构建体现了对填充任务的精细化设计。该数据集源自OpenAI的HumanEval基准，通过专家生成的方式，将原始代码生成问题转化为多种填充场景。具体而言，构建过程涉及从HumanEval中提取代码片段，并系统性地移除部分内容以创建缺失的文本跨度，从而模拟实际编程中常见的代码补全需求。这种基于原始数据集的衍生方法确保了任务的自然性和挑战性，同时保持了代码的语义完整性和功能性。

特点

HumanEval-Infilling数据集的特点在于其多样化的填充任务配置，涵盖了单行、多行、随机跨度等多种场景。数据集包含四个子集：单行填充、多行填充、随机跨度填充及其轻量版本，分别对应1033、5815、1640和164个任务，这种分层设计允许研究者针对不同复杂度的填充问题进行评估。每个任务均提供任务标识、入口点、提示、后缀、规范解决方案和测试用例，确保了评估的全面性和可重复性。数据集的代码语言特性使其专注于编程语言的语义理解与生成能力。

使用方法

使用HumanEval-Infilling数据集时，研究者需通过Hugging Face的datasets库加载指定子集，例如调用load_dataset函数并传入数据集名称及子集配置。默认情况下，系统会加载单行填充子集，但用户可根据需求选择多行或随机跨度等变体。加载后的数据集以结构化格式呈现，包含测试分割的特征列，便于直接用于模型训练或评估。典型应用包括代码生成模型的填充性能测试，通过对比模型输出与规范解决方案，在预设的测试用例上验证其准确性和鲁棒性。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成模型的评估长期依赖于序列预测任务，然而实际编程实践中，开发者常需在已有代码框架内进行补全或修正。为此，OpenAI于2022年推出了HumanEval-Infilling数据集，作为HumanEval基准的衍生扩展，专注于代码填充任务的系统性评估。该数据集由Mohammad Bavarian等研究人员构建，旨在探究语言模型在中间填充场景下的效能，其核心研究问题聚焦于模型对不完整代码结构的理解与生成能力，推动了代码智能辅助工具向更贴近人类编程习惯的方向演进。

当前挑战

代码填充任务本身蕴含多重挑战，模型需准确推断缺失片段的语义与语法，同时保持与前后代码上下文的一致性，这要求超越传统序列生成的对齐与推理能力。在数据集构建过程中，专家生成的高质量标注虽保障了可靠性，但如何定义并平衡不同填充模式（如单行、多行或随机跨度）的难度与代表性，成为关键难点；此外，确保生成代码的功能正确性及与测试用例的兼容性，亦对评估框架的设计提出了严谨要求。

常用场景

经典使用场景

在代码生成领域，HumanEval-Infilling数据集作为中间填充任务的基准，广泛应用于评估语言模型在代码片段中生成缺失部分的能力。其经典使用场景涉及模型根据给定的前缀和后缀上下文，自动推断并补全代码的中间行或随机跨度，从而模拟真实编程中代码补全和重构的需求。该数据集通过单行、多行和随机跨度等多种配置，为研究者提供了细粒度的测试环境，以深入探究模型在结构化代码理解与生成方面的表现。

衍生相关工作

基于HumanEval-Infilling数据集，衍生了一系列经典研究工作，主要集中在高效训练策略和模型架构优化方面。例如，相关研究探索了填充中间训练技术对大型语言模型代码生成能力的增强效果，并提出了针对随机跨度填充的轻量级评估变体。这些工作不仅扩展了代码生成基准的多样性，还为后续研究如代码理解、程序合成等任务提供了方法论借鉴，促进了人工智能与软件工程的交叉领域发展。

数据集最近研究