CoNaLa Corpus v1.1

github2022-10-15 更新2024-05-31 收录

下载链接：

https://github.com/conala-corpus/conala-corpus.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

CoNaLa数据集包含高质量的自然语言意图和Python源代码片段对，分为`conala-train`和`conala-test`数据集。数据集从Stack Overflow爬取，经过自动过滤和人工标注，包含2379个训练示例和500个测试示例。

The CoNaLa dataset comprises high-quality pairs of natural language intents and Python code snippets, divided into `conala-train` and `conala-test` datasets. Sourced from Stack Overflow, the dataset has undergone automatic filtering and manual annotation, encompassing 2379 training examples and 500 test examples.

创建时间：

2018-02-06

原始信息汇总

数据集概述

数据集名称

CMU CoNaLa, the Code/Natural Language Challenge

数据集描述

该数据集旨在测试系统从自然语言生成程序片段的能力。例如，输入为sort list x in reverse order，系统应输出x.sort(reverse=True)。

数据集内容

手动筛选数据：包含高质量的自然语言意图和Python源代码片段对，分为conala-train和conala-test。
- 数据格式：JSON
- 示例字段：
  - question_id: 问题ID
  - intent: 自然语言意图
  - rewritten_intent: 修订后的意图
  - snippet: 实现意图的代码片段
自动挖掘数据：包含598,237个候选意图/代码片段对，存储于conala-mined数据集。
- 数据格式：JSON lines
- 示例字段：
  - question_id: 问题ID
  - parent_answer_post_id: 答案ID
  - intent: 自然语言意图
  - snippet: 提取的代码片段
  - id: 唯一ID
  - prob: 挖掘模型给出的概率

数据集下载

CoNaLa Corpus v1.1：下载链接

引用信息

若使用该数据集，请引用以下文献：

@inproceedings{yin2018mining, author = {Yin, Pengcheng and Deng, Bowen and Chen, Edgar and Vasilescu, Bogdan and Neubig, Graham}, title = {Learning to Mine Aligned Code and Natural Language Pairs from Stack Overflow}, booktitle = {International Conference on Mining Software Repositories}, series = {MSR}, pages = {476--486}, year = {2018}, publisher = {ACM}, doi = {https://doi.org/10.1145/3196398.3196408}, }

其他数据源

允许使用其他数据源，但需确保不包含测试集中的特定Stack Overflow问题信息。提供的数据源包括：
- Django Dataset
- StaQC
- Code Docstring Corpus

搜集汇总

数据集介绍

构建方式

CoNaLa Corpus v1.1的构建过程始于从Stack Overflow平台爬取数据，随后通过自动化过滤和人工标注的双重筛选机制，确保了数据的高质量。数据集最终被划分为2,379个训练样本和500个测试样本，涵盖了自然语言意图与Python代码片段之间的对应关系。此外，数据集还包含了一个自动挖掘的60万样本子集，进一步丰富了研究资源。

使用方法

使用CoNaLa Corpus v1.1时，研究者可以利用`conala-train`和`conala-mined`数据集进行模型训练，并以`conala-test`数据集中的`rewritten_intent`作为输入，生成相应的代码片段。数据集的提交格式为JSON数组，通过CodaLab平台进行结果评估，评估标准基于BLEU分数。此外，数据集还提供了基线模型的训练脚本，便于研究者快速上手。

背景与挑战

背景概述

CoNaLa Corpus v1.1是由卡内基梅隆大学的NeuLab和STRUDEL实验室联合开发的一个数据集，旨在解决从自然语言生成代码片段的核心问题。该数据集于2018年发布，主要研究人员包括Pengcheng Yin、Bowen Deng、Edgar Chen、Bogdan Vasilescu和Graham Neubig。数据集的核心研究问题是通过自然语言描述生成相应的编程代码片段，例如将自然语言指令“按逆序对列表进行排序”转换为Python代码`x.sort(reverse=True)`。CoNaLa Corpus v1.1的数据主要来源于Stack Overflow，经过自动过滤和人工标注，包含2,379个训练样本和500个测试样本。此外，还提供了60万条自动挖掘的代码-自然语言对。该数据集在代码生成和自然语言处理领域具有重要影响力，推动了代码生成模型的研究与应用。

当前挑战

CoNaLa Corpus v1.1面临的挑战主要集中在两个方面。首先，从自然语言生成代码片段的任务本身具有较高的复杂性，自然语言描述的多样性和模糊性使得模型难以准确理解用户意图并生成正确的代码。其次，数据集的构建过程也面临诸多挑战，包括从Stack Overflow中自动提取高质量的代码-自然语言对、过滤噪声数据以及人工标注的高成本。此外，尽管数据集提供了大量自动挖掘的样本，但这些样本的质量参差不齐，可能包含错误或不相关的代码片段，进一步增加了模型训练的难度。如何有效利用这些数据并提升模型的生成能力，是当前研究中的一大挑战。

常用场景

经典使用场景

CoNaLa Corpus v1.1数据集在自然语言处理与编程语言交叉领域的研究中具有重要应用。该数据集主要用于训练和评估从自然语言生成代码片段的系统。例如，给定一个自然语言描述如“按降序排列列表x”，系统需要生成相应的Python代码片段`x.sort(reverse=True)`。这种任务不仅测试了模型对自然语言的理解能力，还考察了其生成准确代码的能力。

解决学术问题

CoNaLa Corpus v1.1解决了自然语言与代码对齐的关键学术问题。通过提供高质量的自然语言意图与代码片段对，该数据集为研究者提供了一个标准化的基准，用于评估和改进代码生成模型的性能。此外，数据集中的手动标注和自动挖掘部分相结合，使得研究者能够探索不同数据来源对模型性能的影响，从而推动该领域的进一步发展。

实际应用

在实际应用中，CoNaLa Corpus v1.1可以用于开发智能编程助手，帮助开发者通过自然语言描述快速生成代码。这种工具可以显著提高编程效率，特别是在处理重复性任务或复杂逻辑时。此外，该数据集还可用于教育领域，帮助学生通过自然语言描述理解代码的实现逻辑，从而提升编程学习的效果。

数据集最近研究