five

codeparrot/conala-mined-curated

收藏
Hugging Face2023-06-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/conala-mined-curated
下载链接
链接失效反馈
官方服务:
资源简介:
Conala-mined-curated数据集基于CoNaLa数据集的挖掘子集,包含了从Stack Overflow爬取的数据,并经过过滤和整理形成了训练集和测试集。数据集的主要特征包括intent(自然语言意图)、snippet(实现意图的代码片段)和rewritten_intent(经过众包修订的意图)。为了构建这个数据集,作者使用了一个Seq2Seq模型来重建rewritten_intent列。该数据集的目标是训练一个模型,将rewritten_intent映射到snippet。

Conala-mined-curated数据集基于CoNaLa数据集的挖掘子集,包含了从Stack Overflow爬取的数据,并经过过滤和整理形成了训练集和测试集。数据集的主要特征包括intent(自然语言意图)、snippet(实现意图的代码片段)和rewritten_intent(经过众包修订的意图)。为了构建这个数据集,作者使用了一个Seq2Seq模型来重建rewritten_intent列。该数据集的目标是训练一个模型,将rewritten_intent映射到snippet。
提供机构:
codeparrot
原始信息汇总

数据集概述

数据集名称

  • 名称: Conala-mined-curated

数据集特征

  • 特征列表:
    • question_id: int64
    • parent_answer_post_id: int64
    • prob: float64
    • snippet: string
    • intent: string
    • rewritten_intent: string
    • id: string

数据集分割

  • 训练集:
    • 数据量: 136332874 字节
    • 样本数: 593891

数据集大小

  • 下载大小: 94688053 字节
  • 数据集大小: 136332874 字节

数据集描述

  • intent: 自然语言意图,即Stack Overflow问题的标题。
  • snippet: 实现意图的代码片段,是挑战中系统的输出。
  • rewritten_intent: 尝试更好地反映代码完整意义的众包修订意图,通常通过将代码中的变量名和函数参数整合到意图中来实现。这是CoNaLa挑战中系统使用的输入。

数据集用途

  • 用于训练模型,将rewritten_intent映射到snippet

数据集构建方法

  • 使用Seq2Seq模型,基于intentsnippet的拼接来重建rewritten_intent
  • 通过微调google UL2来解决此任务。
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理与代码生成交叉领域,Conala-mined-curated数据集通过创新的数据增强方法构建而成。原始CoNaLa数据集的挖掘子集缺乏经过人工修订的意图描述,研究者利用其标注的训练集与测试集作为高质量参考,训练了一个基于google UL2架构的序列到序列模型。该模型以原始意图与代码片段的拼接作为输入,旨在重构出能够更精确反映代码语义的修订意图,从而为近60万条挖掘样本生成了完整的意图-修订意图-代码三元组。
特点
该数据集的核心特征在于其精心构建的修订意图字段,它弥合了自然语言查询与对应代码实现之间的语义鸿沟。数据集包含约59万条样本,每条样本均提供了从Stack Overflow提取的原始问题意图、对应的Python代码片段,以及通过模型生成的、融合了代码中变量名与函数参数等细节的修订意图。这种结构使其特别适用于指令微调任务,能够有效训练模型理解并生成与代码逻辑紧密对齐的自然语言描述。
使用方法
在代码智能与程序合成研究中,该数据集主要用于训练模型从修订意图生成代码片段。用户可通过Hugging Face的datasets库直接加载,调用`load_dataset("codeparrot/conala-mined-curated")`即可访问训练集。数据集中`snippet`字段作为目标输出,`rewritten_intent`字段作为模型输入,为构建代码生成模型提供了大规模、高质量的平行语料。研究者可基于此开展指令跟随、代码补全等任务的模型训练与评估。
背景与挑战
背景概述
在自然语言处理与代码生成交叉领域,CoNaLa数据集作为一项重要资源,由卡内基梅隆大学等研究机构于2018年构建,旨在解决从自然语言意图到Python代码片段的自动生成问题。该数据集基于Stack Overflow平台的海量问答数据,通过精心筛选与标注,为代码生成模型提供了高质量的平行语料。conala-mined-curated数据集在此基础上进一步扩展,通过对原始挖掘子集进行深度处理,增强了数据的一致性与可用性,推动了代码智能生成技术的发展,并在学术界与工业界产生了广泛影响。
当前挑战
该数据集核心挑战在于解决自然语言到代码的语义对齐问题,即如何准确理解模糊的用户意图并生成符合预期的代码片段。构建过程中的主要困难包括:原始挖掘数据缺乏高质量的改写意图标注,需通过序列到序列模型进行自动重建;同时,确保生成的改写意图与代码片段在语义上保持一致,避免信息丢失或扭曲,这对模型的泛化能力与数据质量控制提出了较高要求。
常用场景
经典使用场景
在自然语言处理与代码生成交叉领域,Conala-mined-curated数据集为指令微调任务提供了关键资源。该数据集通过重构改写意图列,将Stack Overflow中的自然语言问题与对应代码片段精准关联,常用于训练序列到序列模型,以实现从自然语言描述到Python代码片段的自动生成。其经典应用场景包括代码补全、智能编程助手以及教育工具的开发,为研究者提供了大规模、高质量的监督学习样本。
衍生相关工作
基于Conala-mined-curated数据集,衍生了一系列经典研究工作。例如,使用UL2等预训练模型进行意图重构的微调方法,为代码生成任务提供了新的数据增强策略。此外,该数据集还促进了如CodeParrot等项目的发展,这些工作进一步探索了大规模代码语言模型的训练与应用,并在代码摘要、漏洞检测等任务中取得了显著成果,丰富了编程智能的研究生态。
数据集最近研究
最新研究方向
在自然语言编程领域,codeparrot/conala-mined-curated数据集作为CoNaLa语料库的扩展,聚焦于代码生成与意图理解的前沿探索。该数据集通过重构改写意图列,为大规模指令微调提供了高质量训练资源,推动了基于序列到序列模型的自动化代码合成研究。当前热点集中于利用预训练语言模型如UL2,结合自然语言意图与代码片段,提升代码生成的准确性与上下文适应性,对智能编程助手和低代码平台的发展具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作