DLI-Lab/COFFEE-Dataset

Name: DLI-Lab/COFFEE-Dataset
Creator: DLI-Lab
Published: 2024-04-08 01:50:29
License: 暂无描述

Hugging Face2024-04-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DLI-Lab/COFFEE-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

COFFEE数据集是用于训练一个能够根据错误代码生成自然语言反馈的批评者的官方数据集。该数据集包含多个特征，如diff_score、feedback、problem_id等，并提供了训练集和评估集的分割信息。数据集还包含一些统计数据，如过滤比例、短反馈比例等。训练集包含739个问题ID，评估集包含578个问题ID。

The COFFEE dataset is an official dataset for training a critic capable of generating natural language feedback based on error codes. It includes multiple features such as diff_score, feedback, problem_id, etc., and provides split information for the training set and evaluation set. The dataset also contains some statistical metrics including filtering ratio, short feedback ratio, etc. The training set contains 739 question IDs, while the evaluation set contains 579 question IDs.

提供机构：

DLI-Lab

原始信息汇总

COFFEE 数据集概述

数据集配置

默认配置：
- 训练集：路径为 data/train-*
- 评估集：路径为 data/eval-*

数据集信息

特征：
- diff_score：类型为 float64
- feedback：类型为 string
- problem_id：类型为 string
- wrong_code：类型为 string
- correct_code：类型为 string
- input_format：类型为 string
- index：类型为 int64
- variable_overlap：类型为 float64
- description：类型为 string
- output_format：类型为 string
- user_id：类型为 string
- metadata：结构化数据，包含以下字段：
  - 맞힌 사람：类型为 string
  - 메모리 제한：类型为 string
  - 시간 제한：类型为 string
  - 정답：类型为 string
  - 정답 비율：类型为 string
  - 제출：类型为 string
- language：类型为 string

数据集划分

训练集：
- 字节数：109,928,745
- 样本数：40,586
评估集：
- 字节数：11,223,340
- 样本数：4,196

数据集大小

下载大小：38,570,356 字节
数据集大小：121,152,085 字节

其他统计信息

总体过滤比例：12.65%
短反馈比例：0.00%（0 样本）
stdin readline 存在比例：1.37%（639 样本）
低差异分数比例：7.79%（3,622 样本）
低变量重叠比例：1.75%（813 样本）
变量名比例：1.74%（807 样本）

问题ID数量

训练集：739
评估集：578

搜集汇总

数据集介绍

构建方式

在代码生成与调试领域，COFFEE数据集通过系统化方法构建，旨在训练能够生成自然语言反馈的批评模型。该数据集从大量编程问题中筛选，仅保留12.65%的样本，确保数据质量。构建过程涉及多阶段过滤，包括移除低差异分数、低变量重叠及特定命名模式的样本，最终形成包含错误代码、正确代码及对应反馈的结构化数据。数据来源于实际编程提交记录，涵盖多种编程语言，每个样本均标注问题ID、用户ID及元数据，如内存与时间限制，以提供丰富上下文。

特点

COFFEE数据集的特点体现在其精细的标注与多样性上。每个样本包含错误代码、修正后的正确代码及自然语言反馈，形成完整的调试学习单元。数据集覆盖739个训练问题和578个评估问题，样本量达4万余条，确保广泛代表性。特征字段包括差异分数、变量重叠度及输入输出格式，支持深度分析代码错误模式。元数据部分提供问题限制与统计信息，增强了数据的实用性与可解释性，适用于代码大语言模型的反馈生成研究。

使用方法

使用COFFEE数据集时，研究者可将其应用于代码调试与反馈生成任务。数据集已划分为训练集与评估集，支持直接加载进行模型训练与验证。典型用法包括训练批评模型，以错误代码和问题描述为输入，生成自然语言反馈；或用于评估代码修复模型的性能。用户需注意数据中的语言多样性及过滤指标，如差异分数阈值，以确保应用场景的匹配。数据集格式兼容常见机器学习框架，便于集成到现有工作流中，推动代码智能领域的发展。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与调试研究日益深入，COFFEE数据集应运而生。该数据集由DLI-Lab团队于2023年构建，核心研究聚焦于通过自然语言反馈提升大型语言模型的代码纠错能力。其设计旨在训练一个批评家模型，使其能够针对错误代码生成精准的反馈信息，从而推动自动化代码修复技术的发展。该数据集的建立，不仅丰富了代码智能辅助工具的语料资源，也为代码理解与生成模型的性能优化提供了重要支撑。

当前挑战

COFFEE数据集致力于解决代码自动修复领域的核心挑战，即如何使模型准确识别代码错误并生成有效的自然语言反馈。在构建过程中，面临多重技术难题：数据筛选需平衡质量与规模，原始数据经过严格过滤，仅保留12.65%的高质量样本；同时需处理代码结构复杂性，如控制输入输出格式的一致性，并应对变量命名重叠、差异评分较低等噪声干扰。这些挑战要求数据集在保持多样性的同时，确保反馈信息的准确性与实用性。

常用场景

经典使用场景

在代码智能领域，COFFEE数据集为基于反馈的代码纠错研究提供了关键支撑。该数据集通过整合错误代码、正确代码及自然语言反馈，构建了一个结构化训练环境，使得模型能够学习从代码差异中推导出有意义的修正指导。经典使用场景聚焦于训练代码大语言模型的批评者模块，使其能够分析错误代码并生成针对性的自然语言反馈，从而引导模型自主修复程序缺陷，提升代码生成与调试的自动化水平。

衍生相关工作

围绕COFFEE数据集，学术界已衍生出一系列聚焦代码反馈生成与纠错的经典研究工作。这些工作通常以该数据集为基础，探索不同的神经网络架构与训练策略，如基于序列到序列的反馈生成模型、结合代码抽象语法树与差异分析的混合方法等。相关研究不仅验证了数据集在提升代码大语言模型批评能力方面的有效性，还进一步扩展了其在代码修复、程序合成及自动化软件工程等交叉领域的应用边界。

数据集最近研究