codeparrot/conala-mined-curated

Name: codeparrot/conala-mined-curated
Creator: codeparrot
Published: 2023-06-13 15:56:31
License: 暂无描述

Hugging Face2023-06-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/codeparrot/conala-mined-curated

下载链接

链接失效反馈

官方服务：

资源简介：

Conala-mined-curated数据集基于CoNaLa数据集的挖掘子集，包含了从Stack Overflow爬取的数据，并经过过滤和整理形成了训练集和测试集。数据集的主要特征包括intent（自然语言意图）、snippet（实现意图的代码片段）和rewritten_intent（经过众包修订的意图）。为了构建这个数据集，作者使用了一个Seq2Seq模型来重建rewritten_intent列。该数据集的目标是训练一个模型，将rewritten_intent映射到snippet。

提供机构：

codeparrot

原始信息汇总

数据集概述

数据集名称

名称: Conala-mined-curated

数据集特征

特征列表:
- question_id: int64
- parent_answer_post_id: int64
- prob: float64
- snippet: string
- intent: string
- rewritten_intent: string
- id: string

数据集分割

训练集:
- 数据量: 136332874 字节
- 样本数: 593891

数据集大小

下载大小: 94688053 字节
数据集大小: 136332874 字节

数据集描述

intent: 自然语言意图，即Stack Overflow问题的标题。
snippet: 实现意图的代码片段，是挑战中系统的输出。
rewritten_intent: 尝试更好地反映代码完整意义的众包修订意图，通常通过将代码中的变量名和函数参数整合到意图中来实现。这是CoNaLa挑战中系统使用的输入。

数据集用途

用于训练模型，将rewritten_intent映射到snippet。

数据集构建方法

使用Seq2Seq模型，基于intent和snippet的拼接来重建rewritten_intent。
通过微调google UL2来解决此任务。

搜集汇总

数据集介绍

构建方式

在自然语言处理与代码生成交叉领域，Conala-mined-curated数据集通过创新的数据增强方法构建而成。原始CoNaLa数据集的挖掘子集缺乏经过人工修订的意图描述，研究者利用其标注的训练集与测试集作为高质量参考，训练了一个基于google UL2架构的序列到序列模型。该模型以原始意图与代码片段的拼接作为输入，旨在重构出能够更精确反映代码语义的修订意图，从而为近60万条挖掘样本生成了完整的意图-修订意图-代码三元组。

特点

该数据集的核心特征在于其精心构建的修订意图字段，它弥合了自然语言查询与对应代码实现之间的语义鸿沟。数据集包含约59万条样本，每条样本均提供了从Stack Overflow提取的原始问题意图、对应的Python代码片段，以及通过模型生成的、融合了代码中变量名与函数参数等细节的修订意图。这种结构使其特别适用于指令微调任务，能够有效训练模型理解并生成与代码逻辑紧密对齐的自然语言描述。

使用方法

在代码智能与程序合成研究中，该数据集主要用于训练模型从修订意图生成代码片段。用户可通过Hugging Face的datasets库直接加载，调用`load_dataset("codeparrot/conala-mined-curated")`即可访问训练集。数据集中`snippet`字段作为目标输出，`rewritten_intent`字段作为模型输入，为构建代码生成模型提供了大规模、高质量的平行语料。研究者可基于此开展指令跟随、代码补全等任务的模型训练与评估。

背景与挑战

背景概述

在自然语言处理与代码生成交叉领域，CoNaLa数据集作为一项重要资源，由卡内基梅隆大学等研究机构于2018年构建，旨在解决从自然语言意图到Python代码片段的自动生成问题。该数据集基于Stack Overflow平台的海量问答数据，通过精心筛选与标注，为代码生成模型提供了高质量的平行语料。conala-mined-curated数据集在此基础上进一步扩展，通过对原始挖掘子集进行深度处理，增强了数据的一致性与可用性，推动了代码智能生成技术的发展，并在学术界与工业界产生了广泛影响。

当前挑战

该数据集核心挑战在于解决自然语言到代码的语义对齐问题，即如何准确理解模糊的用户意图并生成符合预期的代码片段。构建过程中的主要困难包括：原始挖掘数据缺乏高质量的改写意图标注，需通过序列到序列模型进行自动重建；同时，确保生成的改写意图与代码片段在语义上保持一致，避免信息丢失或扭曲，这对模型的泛化能力与数据质量控制提出了较高要求。

常用场景

经典使用场景

在自然语言处理与代码生成交叉领域，Conala-mined-curated数据集为指令微调任务提供了关键资源。该数据集通过重构改写意图列，将Stack Overflow中的自然语言问题与对应代码片段精准关联，常用于训练序列到序列模型，以实现从自然语言描述到Python代码片段的自动生成。其经典应用场景包括代码补全、智能编程助手以及教育工具的开发，为研究者提供了大规模、高质量的监督学习样本。

衍生相关工作

基于Conala-mined-curated数据集，衍生了一系列经典研究工作。例如，使用UL2等预训练模型进行意图重构的微调方法，为代码生成任务提供了新的数据增强策略。此外，该数据集还促进了如CodeParrot等项目的发展，这些工作进一步探索了大规模代码语言模型的训练与应用，并在代码摘要、漏洞检测等任务中取得了显著成果，丰富了编程智能的研究生态。

数据集最近研究