google/code_x_glue_tc_text_to_code
收藏Hugging Face2024-01-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/code_x_glue_tc_text_to_code
下载链接
链接失效反馈官方服务:
资源简介:
CodeXGLUE文本到代码数据集,包含自然语言描述和对应的Java代码,数据来源于Microsoft Documentation。数据集分为训练集、验证集和测试集,分别包含100,000、2,000和2,000个样本。该数据集可用于训练模型,将英语自然语言描述翻译为Java代码。
CodeXGLUE文本到代码数据集,包含自然语言描述和对应的Java代码,数据来源于Microsoft Documentation。数据集分为训练集、验证集和测试集,分别包含100,000、2,000和2,000个样本。该数据集可用于训练模型,将英语自然语言描述翻译为Java代码。
提供机构:
google
原始信息汇总
数据集概述
数据集名称
- 名称: CodeXGlueTcTextToCode
- 别名: code_x_glue_tc_text_to_code
数据集描述
数据集摘要
- 摘要: CodeXGLUE text-to-code 数据集,用于训练模型从英语自然语言描述生成Java代码。
- 来源: 数据集爬取并筛选自Microsoft Documentation。
支持的任务和排行榜
- 任务: 机器翻译
- 描述: 用于训练模型从英语自然语言描述生成Java代码。
语言
- 语言: Java编程语言
数据集结构
数据实例
- 示例: 包含代码、ID和自然语言描述。
数据字段
- 字段:
- id: 样本索引,类型为int32。
- nl: 任务的自然语言描述,类型为string。
- code: 任务的编程源代码,类型为string。
数据分割
- 分割:
- train: 100000样本
- validation: 2000样本
- test: 2000样本
数据集创建
许可证信息
- 许可证: Computational Use of Data Agreement (C-UDA) License.
引用信息
@article{iyer2018mapping, title={Mapping language to code in programmatic context}, author={Iyer, Srinivasan and Konstas, Ioannis and Cheung, Alvin and Zettlemoyer, Luke}, journal={arXiv preprint arXiv:1808.09588}, year={2018} }
贡献者
- 贡献者: @madlag, @ncoop57



