codeparrot/conala-mined-curated
收藏Hugging Face2023-06-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/conala-mined-curated
下载链接
链接失效反馈官方服务:
资源简介:
Conala-mined-curated数据集基于CoNaLa数据集的挖掘子集,包含了从Stack Overflow爬取的数据,并经过过滤和整理形成了训练集和测试集。数据集的主要特征包括intent(自然语言意图)、snippet(实现意图的代码片段)和rewritten_intent(经过众包修订的意图)。为了构建这个数据集,作者使用了一个Seq2Seq模型来重建rewritten_intent列。该数据集的目标是训练一个模型,将rewritten_intent映射到snippet。
Conala-mined-curated数据集基于CoNaLa数据集的挖掘子集,包含了从Stack Overflow爬取的数据,并经过过滤和整理形成了训练集和测试集。数据集的主要特征包括intent(自然语言意图)、snippet(实现意图的代码片段)和rewritten_intent(经过众包修订的意图)。为了构建这个数据集,作者使用了一个Seq2Seq模型来重建rewritten_intent列。该数据集的目标是训练一个模型,将rewritten_intent映射到snippet。
提供机构:
codeparrot
原始信息汇总
数据集概述
数据集名称
- 名称: Conala-mined-curated
数据集特征
- 特征列表:
question_id: int64parent_answer_post_id: int64prob: float64snippet: stringintent: stringrewritten_intent: stringid: string
数据集分割
- 训练集:
- 数据量: 136332874 字节
- 样本数: 593891
数据集大小
- 下载大小: 94688053 字节
- 数据集大小: 136332874 字节
数据集描述
- intent: 自然语言意图,即Stack Overflow问题的标题。
- snippet: 实现意图的代码片段,是挑战中系统的输出。
- rewritten_intent: 尝试更好地反映代码完整意义的众包修订意图,通常通过将代码中的变量名和函数参数整合到意图中来实现。这是CoNaLa挑战中系统使用的输入。
数据集用途
- 用于训练模型,将
rewritten_intent映射到snippet。
数据集构建方法
- 使用Seq2Seq模型,基于
intent和snippet的拼接来重建rewritten_intent。 - 通过微调google UL2来解决此任务。
搜集汇总
数据集介绍

构建方式
在自然语言处理与代码生成交叉领域,Conala-mined-curated数据集通过创新的数据增强方法构建而成。原始CoNaLa数据集的挖掘子集缺乏经过人工修订的意图描述,研究者利用其标注的训练集与测试集作为高质量参考,训练了一个基于google UL2架构的序列到序列模型。该模型以原始意图与代码片段的拼接作为输入,旨在重构出能够更精确反映代码语义的修订意图,从而为近60万条挖掘样本生成了完整的意图-修订意图-代码三元组。
特点
该数据集的核心特征在于其精心构建的修订意图字段,它弥合了自然语言查询与对应代码实现之间的语义鸿沟。数据集包含约59万条样本,每条样本均提供了从Stack Overflow提取的原始问题意图、对应的Python代码片段,以及通过模型生成的、融合了代码中变量名与函数参数等细节的修订意图。这种结构使其特别适用于指令微调任务,能够有效训练模型理解并生成与代码逻辑紧密对齐的自然语言描述。
使用方法
在代码智能与程序合成研究中,该数据集主要用于训练模型从修订意图生成代码片段。用户可通过Hugging Face的datasets库直接加载,调用`load_dataset("codeparrot/conala-mined-curated")`即可访问训练集。数据集中`snippet`字段作为目标输出,`rewritten_intent`字段作为模型输入,为构建代码生成模型提供了大规模、高质量的平行语料。研究者可基于此开展指令跟随、代码补全等任务的模型训练与评估。
背景与挑战
背景概述
在自然语言处理与代码生成交叉领域,CoNaLa数据集作为一项重要资源,由卡内基梅隆大学等研究机构于2018年构建,旨在解决从自然语言意图到Python代码片段的自动生成问题。该数据集基于Stack Overflow平台的海量问答数据,通过精心筛选与标注,为代码生成模型提供了高质量的平行语料。conala-mined-curated数据集在此基础上进一步扩展,通过对原始挖掘子集进行深度处理,增强了数据的一致性与可用性,推动了代码智能生成技术的发展,并在学术界与工业界产生了广泛影响。
当前挑战
该数据集核心挑战在于解决自然语言到代码的语义对齐问题,即如何准确理解模糊的用户意图并生成符合预期的代码片段。构建过程中的主要困难包括:原始挖掘数据缺乏高质量的改写意图标注,需通过序列到序列模型进行自动重建;同时,确保生成的改写意图与代码片段在语义上保持一致,避免信息丢失或扭曲,这对模型的泛化能力与数据质量控制提出了较高要求。
常用场景
经典使用场景
在自然语言处理与代码生成交叉领域,Conala-mined-curated数据集为指令微调任务提供了关键资源。该数据集通过重构改写意图列,将Stack Overflow中的自然语言问题与对应代码片段精准关联,常用于训练序列到序列模型,以实现从自然语言描述到Python代码片段的自动生成。其经典应用场景包括代码补全、智能编程助手以及教育工具的开发,为研究者提供了大规模、高质量的监督学习样本。
衍生相关工作
基于Conala-mined-curated数据集,衍生了一系列经典研究工作。例如,使用UL2等预训练模型进行意图重构的微调方法,为代码生成任务提供了新的数据增强策略。此外,该数据集还促进了如CodeParrot等项目的发展,这些工作进一步探索了大规模代码语言模型的训练与应用,并在代码摘要、漏洞检测等任务中取得了显著成果,丰富了编程智能的研究生态。
数据集最近研究
最新研究方向
在自然语言编程领域,codeparrot/conala-mined-curated数据集作为CoNaLa语料库的扩展,聚焦于代码生成与意图理解的前沿探索。该数据集通过重构改写意图列,为大规模指令微调提供了高质量训练资源,推动了基于序列到序列模型的自动化代码合成研究。当前热点集中于利用预训练语言模型如UL2,结合自然语言意图与代码片段,提升代码生成的准确性与上下文适应性,对智能编程助手和低代码平台的发展具有深远影响。
以上内容由遇见数据集搜集并总结生成



