semeru/Text-Code-concode-Java
收藏Hugging Face2023-03-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/semeru/Text-Code-concode-Java
下载链接
链接失效反馈官方服务:
资源简介:
Concode数据集是CodeXGLUE项目中用于文本到代码生成任务的广泛使用的数据集。该数据集用于生成Java类成员函数的源代码,给定自然语言描述和类环境。类环境包括类中的其他成员变量和成员函数。数据集包含训练、开发和测试集,分别有100,000、2,000和2,000个示例。数据格式为json lines,每行包含自然语言描述和对应的代码。
Concode数据集是CodeXGLUE项目中用于文本到代码生成任务的广泛使用的数据集。该数据集用于生成Java类成员函数的源代码,给定自然语言描述和类环境。类环境包括类中的其他成员变量和成员函数。数据集包含训练、开发和测试集,分别有100,000、2,000和2,000个示例。数据格式为json lines,每行包含自然语言描述和对应的代码。
提供机构:
semeru
原始信息汇总
数据集概述
数据集来源与处理
- 数据集从CodeXGLUE导入,并使用其提供的脚本进行预处理。
数据集位置
- 在Semeru系统中,数据集位于
/nfs/semeru/semeru_datasets/code_xglue/text-to-code/concode。
任务定义
- 任务为文本到代码的生成,具体为根据自然语言描述和类环境生成Java类成员函数的源代码。
- 评估标准包括精确匹配和BLEU分数。
数据集详情
- 使用Concode数据集,该数据集源自Iyer的EMNLP 2018论文《Mapping Language to Code in Programmatic Context》。
- 数据集统计:
- 训练集:100,000个样本
- 开发集:2,000个样本
- 测试集:2,000个样本
数据格式
- 代码语料库以JSON行格式存储,每行包含一个JSON对象,包含自然语言描述和生成的代码。
引用信息
- 参考文献:Iyer, Srinivasan, et al. "Mapping language to code in programmatic context." arXiv preprint arXiv:1808.09588 (2018).
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



