five

CoNaLa (CMU CoNaLa, the Code/Natural Language Challenge)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CoNaLa
下载链接
链接失效反馈
官方服务:
资源简介:
CMU CoNaLa,代码/自然语言挑战数据集是卡内基梅隆大学 NeuLab 和 Strudel 实验室的联合项目。其目的是测试从自然语言生成代码片段。数据来自 StackOverflow 问题。有 2379 个训练和 500 个测试示例是手动注释的。每个示例都有一个自然语言意图及其相应的 Python 片段。除了手动标注的数据集外,还有 598,237 个挖掘的意图-片段对。这些示例类似于手动注释的示例,只是它们包含一个概率,如果该对是有效的。

CMU CoNaLa, a code/natural language challenge dataset, is a joint project by Carnegie Mellon University's NeuLab and Strudel Lab. Its core objective is to evaluate code snippet generation from natural language. The dataset's data originates from StackOverflow questions. There are 2,379 manually annotated training examples and 500 manually annotated test examples. Each example consists of a natural language intent and its corresponding Python code snippet. In addition to the manually annotated dataset, there are 598,237 mined intent-snippet pairs. These pairs are analogous to the manually annotated ones, with each pair containing a probability score indicating its validity.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CoNaLa数据集由卡内基梅隆大学开发,专注于自然语言到Python代码的生成任务。它基于StackOverflow问题构建,包含手动注释的训练和测试示例,以及大量自动挖掘的意图-片段对。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作