google/code_x_glue_cc_cloze_testing_all
收藏Hugging Face2024-01-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/code_x_glue_cc_cloze_testing_all
下载链接
链接失效反馈官方服务:
资源简介:
CodeXGLUE ClozeTesting-all数据集是一个用于代码领域的Cloze测试的数据集,包含六种编程语言(Go、Java、JavaScript、PHP、Python、Ruby)的代码片段。每个实例包含一个被掩码的代码函数、其文档字符串和目标词。该数据集的任务是预测代码中的缺失标记,类似于Cloze测试。数据集的结构包括多个配置文件,每个配置文件对应一种编程语言,包含训练集的数据实例和字段描述。
CodeXGLUE ClozeTesting-all数据集是一个用于代码领域的Cloze测试的数据集,包含六种编程语言(Go、Java、JavaScript、PHP、Python、Ruby)的代码片段。每个实例包含一个被掩码的代码函数、其文档字符串和目标词。该数据集的任务是预测代码中的缺失标记,类似于Cloze测试。数据集的结构包括多个配置文件,每个配置文件对应一种编程语言,包含训练集的数据实例和字段描述。
提供机构:
google
原始信息汇总
数据集概述
数据集名称: CodeXGLUECcClozeTestingAll
数据集描述: CodeXGLUE ClozeTesting-all 数据集包含针对六种不同编程语言(Go、Java、JavaScript、PHP、Python、Ruby)的代码填空测试数据。每个实例包含一个被遮蔽的代码函数、其文档字符串和目标单词。
数据集特点:
- 语言: 六种编程语言
- 任务类别: 文本生成、填空
- 数据集大小:
- Go: 22409705 字节
- Java: 40392865 字节
- JavaScript: 16090142 字节
- PHP: 51328868 字节
- Python: 40631113 字节
- Ruby: 3454884 字节
- 数据集结构:
- 数据字段:
- id: int32
- idx: string
- nl_tokens: Sequence[string]
- pl_tokens: Sequence[string]
- 数据分割:
- Go: 训练集 25282 个样本
- Java: 训练集 40492 个样本
- JavaScript: 训练集 13837 个样本
- PHP: 训练集 51930 个样本
- Python: 训练集 40137 个样本
- Ruby: 训练集 4437 个样本
- 数据字段:
许可证: Computational Use of Data Agreement (C-UDA) License
数据集创建:
- 源数据: 来自 CodeSearchNet Challenge 数据集
- 语言创建者: 软件工程开发者
- 许可证: C-UDA
数据集使用注意事项:
- 社会影响: [待补充]
- 偏见讨论: [待补充]
- 其他已知限制: [待补充]
贡献者:
- @madlag
- @ncoop57
搜集汇总
数据集介绍

背景与挑战
背景概述
CodeXGLUE ClozeTesting-all数据集是一个多编程语言的代码填空测试数据集,包含Go、Java、JavaScript、PHP、Python和Ruby等语言的代码函数及其自然语言描述。数据集用于训练模型预测被遮挡的代码部分,支持多选分类任务。
以上内容由遇见数据集搜集并总结生成



