five

semeru/Text-Code-concode-Java

收藏
Hugging Face2023-03-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/semeru/Text-Code-concode-Java
下载链接
链接失效反馈
官方服务:
资源简介:
Concode数据集是CodeXGLUE项目中用于文本到代码生成任务的广泛使用的数据集。该数据集用于生成Java类成员函数的源代码,给定自然语言描述和类环境。类环境包括类中的其他成员变量和成员函数。数据集包含训练、开发和测试集,分别有100,000、2,000和2,000个示例。数据格式为json lines,每行包含自然语言描述和对应的代码。

Concode数据集是CodeXGLUE项目中用于文本到代码生成任务的广泛使用的数据集。该数据集用于生成Java类成员函数的源代码,给定自然语言描述和类环境。类环境包括类中的其他成员变量和成员函数。数据集包含训练、开发和测试集,分别有100,000、2,000和2,000个示例。数据格式为json lines,每行包含自然语言描述和对应的代码。
提供机构:
semeru
原始信息汇总

数据集概述

数据集来源与处理

  • 数据集从CodeXGLUE导入,并使用其提供的脚本进行预处理。

数据集位置

  • 在Semeru系统中,数据集位于 /nfs/semeru/semeru_datasets/code_xglue/text-to-code/concode

任务定义

  • 任务为文本到代码的生成,具体为根据自然语言描述和类环境生成Java类成员函数的源代码。
  • 评估标准包括精确匹配和BLEU分数。

数据集详情

  • 使用Concode数据集,该数据集源自Iyer的EMNLP 2018论文《Mapping Language to Code in Programmatic Context》。
  • 数据集统计:
    • 训练集:100,000个样本
    • 开发集:2,000个样本
    • 测试集:2,000个样本

数据格式

  • 代码语料库以JSON行格式存储,每行包含一个JSON对象,包含自然语言描述和生成的代码。

引用信息

  • 参考文献:Iyer, Srinivasan, et al. "Mapping language to code in programmatic context." arXiv preprint arXiv:1808.09588 (2018).
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作