humaneval_infilling

Name: humaneval_infilling
Creator: ellamind
Published: 2026-03-10 04:25:18
License: 暂无描述

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/ellamind/humaneval_infilling

下载链接

链接失效反馈

官方服务：

资源简介：

HumanEval Infilling 是一个基于论文《Efficient Training of Language Models to Fill in the Middle》(Bavarian et al., 2022) 的代码填充任务数据集。数据集包含四个不同的配置，分别针对单行填充、多行填充、随机跨度填充及其轻量版。每个配置包含以下字段：task_id（唯一标识符）、entry_point（函数名）、prompt（代码前缀）、suffix（代码后缀）、canonical_solution（掩码区域的真实解）和 test（单元测试代码）。该数据集适用于训练语言模型进行代码填充任务，支持多种填充场景。

提供机构：

ellamind

创建时间：

2026-03-10

搜集汇总

数据集介绍

构建方式

在代码生成与补全的研究领域，humaneval_infilling数据集基于《Efficient Training of Language Models to Fill in the Middle》论文构建，旨在评估模型在代码中间填充任务上的能力。该数据集通过对HumanEval原始编程问题中的代码片段进行系统化掩码处理生成，具体设计了四种配置：单行掩码、多行掩码、随机跨度掩码及其轻量变体，每种配置均精确划分前缀、后缀与待补全区域，并配以标准解与单元测试，确保了数据构建的严谨性与任务多样性。

使用方法

研究人员可通过HuggingFace的datasets库便捷加载此数据集，例如使用`load_dataset("ellamind/humaneval_infilling", "HumanEval-SingleLineInfilling")`指令即可导入指定配置。在具体应用中，模型接收由`prompt`和`suffix`定义的上下文，生成缺失的代码部分，并可通过`canonical_solution`进行监督学习或通过`test`进行功能正确性验证。这种设计使得该数据集能够无缝集成到代码填充模型的训练、微调及评估流程中，推动代码生成技术的进步。

背景与挑战

背景概述

Humaneval_infilling数据集源于2022年由Bavarian等研究人员提出的《Efficient Training of Language Models to Fill in the Middle》研究，该工作由OpenAI等机构支持，专注于代码生成领域中的填充任务。该数据集基于经典的HumanEval基准构建，旨在评估语言模型在代码中间填充（infilling）能力，即根据给定的代码前缀和后缀，生成缺失的代码片段。这一研究方向响应了大型语言模型在软件工程自动化中的应用需求，推动了代码补全与生成技术的进步，对编程辅助工具和智能开发环境的发展产生了显著影响。

当前挑战

Humaneval_infilling数据集所解决的领域问题是代码中间填充，其核心挑战在于模型需要准确理解代码的上下文语义和语法结构，以生成符合逻辑且功能正确的缺失部分，这要求模型具备深层次的编程语言理解和推理能力。在构建过程中，挑战包括如何设计多样化的掩码策略以覆盖不同复杂度的填充场景，例如单行、多行或随机跨度掩码，以及确保数据标注的准确性和一致性，避免引入偏差或错误，从而为模型评估提供可靠基准。

常用场景

经典使用场景

在代码生成与自然语言处理领域，HumanEval Infilling数据集专为评估语言模型在代码填充任务中的能力而设计。其经典使用场景聚焦于测试模型根据给定代码前缀和后缀，准确预测中间缺失部分的能力，这涵盖了单行填充、多行填充以及随机跨度填充等多种配置，模拟了实际编程中代码补全或修复的复杂情境。

解决学术问题

该数据集有效解决了语言模型在代码理解与生成中的关键学术问题，特别是针对填充中间内容（Fill-in-the-Middle）这一训练范式。通过提供标准化的评估基准，它促进了模型在代码语义连贯性、语法正确性及功能完整性方面的研究，为探索高效训练方法（如基于中间填充的预训练策略）提供了可靠的数据支撑，推动了代码智能领域的理论进展。

实际应用

在实际应用中，HumanEval Infilling数据集被广泛集成到代码助手和集成开发环境（IDE）工具中，以优化自动代码补全、错误修复及重构功能。其多样化的填充任务配置能够模拟真实编程场景，帮助开发者提升编码效率与代码质量，同时为工业级语言模型的微调与部署提供了关键测试基准，加速了智能编程工具的落地与普及。

数据集最近研究