five

google/code_x_glue_ct_code_to_text

收藏
Hugging Face2024-01-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/code_x_glue_ct_code_to_text
下载链接
链接失效反馈
官方服务:
资源简介:
CodeXGLUE代码到文本数据集,来源于CodeSearchNet,并经过过滤处理,移除了无法解析为抽象语法树的代码、文档标记少于3个或多于256个的示例、包含特殊标记的文档以及非英文文档。该数据集支持多种编程语言,包括Go、Java、JavaScript、PHP、Python和Ruby,并且包含英文自然语言。数据集的结构包括代码、代码标记、文档字符串、文档字符串标记等字段,并分为训练集、验证集和测试集。

CodeXGLUE代码到文本数据集,来源于CodeSearchNet,并经过过滤处理,移除了无法解析为抽象语法树的代码、文档标记少于3个或多于256个的示例、包含特殊标记的文档以及非英文文档。该数据集支持多种编程语言,包括Go、Java、JavaScript、PHP、Python和Ruby,并且包含英文自然语言。数据集的结构包括代码、代码标记、文档字符串、文档字符串标记等字段,并分为训练集、验证集和测试集。
提供机构:
google
原始信息汇总

数据集概述

数据集名称

  • 名称: CodeXGlueCtCodeToText
  • 别名: code_x_glue_ct_code_to_text

数据集基本信息

  • 语言:
    • 编程语言: Go, Java, JavaScript, PHP, Python, Ruby
    • 自然语言: English
  • 许可证: c-uda
  • 多语言性: 其他编程语言
  • 大小类别:
    • 100K<n<1M
    • 10K<n<100K
  • 源数据集: original
  • 任务类别: translation
  • 标签: code-to-text

数据集结构

  • 配置名称:

    • Go, Java, JavaScript, PHP, Python, Ruby
  • 数据实例特征:

    • id: int32
    • repo: string
    • path: string
    • func_name: string
    • original_string: string
    • language: string
    • code: string
    • code_tokens: sequence: string
    • docstring: string
    • docstring_tokens: sequence: string
    • sha: string
    • url: string
  • 数据分割:

    • Go:

      • train: num_bytes=342243143, num_examples=167288
      • validation: num_bytes=13721860, num_examples=7325
      • test: num_bytes=16328406, num_examples=8122
      • download_size: 121341698
      • dataset_size: 372293409
    • Java:

      • train: num_bytes=452553835, num_examples=164923
      • validation: num_bytes=13366344, num_examples=5183
      • test: num_bytes=29080753, num_examples=10955
      • download_size: 154701399
      • dataset_size: 495000932
    • JavaScript:

      • train: num_bytes=160860431, num_examples=58025
      • validation: num_bytes=10337344, num_examples=3885
      • test: num_bytes=10190713, num_examples=3291
      • download_size: 65788314
      • dataset_size: 181388488
    • PHP:

      • train: num_bytes=614654499, num_examples=241241
      • validation: num_bytes=33283045, num_examples=12982
      • test: num_bytes=35374993, num_examples=14014
      • download_size: 219692158
      • dataset_size: 683312537
    • Python:

      • train: num_bytes=813663148, num_examples=251820
      • validation: num_bytes=46888564, num_examples=13914
      • test: num_bytes=50659688, num_examples=14918
      • download_size: 325551862
      • dataset_size: 911211400
    • Ruby:

      • train: num_bytes=51956439, num_examples=24927
      • validation: num_bytes=2821037, num_examples=1400
      • test: num_bytes=2671551, num_examples=1261
      • download_size: 21921316
      • dataset_size: 57449027

数据集用途

  • 支持任务: 机器翻译
  • 具体用途: 用于训练模型自动生成英文文档字符串(docstrings)以描述代码。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集名为'code_x_glue_ct_code_to_text',是一个多语言代码到文本生成数据集,包含Go、Java、JavaScript、PHP、Python和Ruby等多种编程语言的代码片段及其对应的英文文档字符串。数据集经过严格过滤,确保代码可解析且文档字符串质量较高,适用于训练模型自动生成代码的英文文档。数据集结构清晰,包含代码、文档字符串及其分词版本,以及代码的元信息如仓库、路径等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作