five

google/code_x_glue_cc_cloze_testing_all

收藏
Hugging Face2024-01-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/code_x_glue_cc_cloze_testing_all
下载链接
链接失效反馈
官方服务:
资源简介:
CodeXGLUE ClozeTesting-all数据集是一个用于代码领域的Cloze测试的数据集,包含六种编程语言(Go、Java、JavaScript、PHP、Python、Ruby)的代码片段。每个实例包含一个被掩码的代码函数、其文档字符串和目标词。该数据集的任务是预测代码中的缺失标记,类似于Cloze测试。数据集的结构包括多个配置文件,每个配置文件对应一种编程语言,包含训练集的数据实例和字段描述。

CodeXGLUE ClozeTesting-all数据集是一个用于代码领域的Cloze测试的数据集,包含六种编程语言(Go、Java、JavaScript、PHP、Python、Ruby)的代码片段。每个实例包含一个被掩码的代码函数、其文档字符串和目标词。该数据集的任务是预测代码中的缺失标记,类似于Cloze测试。数据集的结构包括多个配置文件,每个配置文件对应一种编程语言,包含训练集的数据实例和字段描述。
提供机构:
google
原始信息汇总

数据集概述

数据集名称: CodeXGLUECcClozeTestingAll

数据集描述: CodeXGLUE ClozeTesting-all 数据集包含针对六种不同编程语言(Go、Java、JavaScript、PHP、Python、Ruby)的代码填空测试数据。每个实例包含一个被遮蔽的代码函数、其文档字符串和目标单词。

数据集特点:

  • 语言: 六种编程语言
  • 任务类别: 文本生成、填空
  • 数据集大小:
    • Go: 22409705 字节
    • Java: 40392865 字节
    • JavaScript: 16090142 字节
    • PHP: 51328868 字节
    • Python: 40631113 字节
    • Ruby: 3454884 字节
  • 数据集结构:
    • 数据字段:
      • id: int32
      • idx: string
      • nl_tokens: Sequence[string]
      • pl_tokens: Sequence[string]
    • 数据分割:
      • Go: 训练集 25282 个样本
      • Java: 训练集 40492 个样本
      • JavaScript: 训练集 13837 个样本
      • PHP: 训练集 51930 个样本
      • Python: 训练集 40137 个样本
      • Ruby: 训练集 4437 个样本

许可证: Computational Use of Data Agreement (C-UDA) License

数据集创建:

  • 源数据: 来自 CodeSearchNet Challenge 数据集
  • 语言创建者: 软件工程开发者
  • 许可证: C-UDA

数据集使用注意事项:

  • 社会影响: [待补充]
  • 偏见讨论: [待补充]
  • 其他已知限制: [待补充]

贡献者:

  • @madlag
  • @ncoop57
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CodeXGLUE ClozeTesting-all数据集是一个多编程语言的代码填空测试数据集,包含Go、Java、JavaScript、PHP、Python和Ruby等语言的代码函数及其自然语言描述。数据集用于训练模型预测被遮挡的代码部分,支持多选分类任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作