google/code_x_glue_ct_code_to_text
收藏Hugging Face2024-01-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/code_x_glue_ct_code_to_text
下载链接
链接失效反馈官方服务:
资源简介:
CodeXGLUE代码到文本数据集,来源于CodeSearchNet,并经过过滤处理,移除了无法解析为抽象语法树的代码、文档标记少于3个或多于256个的示例、包含特殊标记的文档以及非英文文档。该数据集支持多种编程语言,包括Go、Java、JavaScript、PHP、Python和Ruby,并且包含英文自然语言。数据集的结构包括代码、代码标记、文档字符串、文档字符串标记等字段,并分为训练集、验证集和测试集。
CodeXGLUE代码到文本数据集,来源于CodeSearchNet,并经过过滤处理,移除了无法解析为抽象语法树的代码、文档标记少于3个或多于256个的示例、包含特殊标记的文档以及非英文文档。该数据集支持多种编程语言,包括Go、Java、JavaScript、PHP、Python和Ruby,并且包含英文自然语言。数据集的结构包括代码、代码标记、文档字符串、文档字符串标记等字段,并分为训练集、验证集和测试集。
提供机构:
google
原始信息汇总
数据集概述
数据集名称
- 名称: CodeXGlueCtCodeToText
- 别名: code_x_glue_ct_code_to_text
数据集基本信息
- 语言:
- 编程语言: Go, Java, JavaScript, PHP, Python, Ruby
- 自然语言: English
- 许可证: c-uda
- 多语言性: 其他编程语言
- 大小类别:
- 100K<n<1M
- 10K<n<100K
- 源数据集: original
- 任务类别: translation
- 标签: code-to-text
数据集结构
-
配置名称:
- Go, Java, JavaScript, PHP, Python, Ruby
-
数据实例特征:
- id: int32
- repo: string
- path: string
- func_name: string
- original_string: string
- language: string
- code: string
- code_tokens: sequence: string
- docstring: string
- docstring_tokens: sequence: string
- sha: string
- url: string
-
数据分割:
-
Go:
- train: num_bytes=342243143, num_examples=167288
- validation: num_bytes=13721860, num_examples=7325
- test: num_bytes=16328406, num_examples=8122
- download_size: 121341698
- dataset_size: 372293409
-
Java:
- train: num_bytes=452553835, num_examples=164923
- validation: num_bytes=13366344, num_examples=5183
- test: num_bytes=29080753, num_examples=10955
- download_size: 154701399
- dataset_size: 495000932
-
JavaScript:
- train: num_bytes=160860431, num_examples=58025
- validation: num_bytes=10337344, num_examples=3885
- test: num_bytes=10190713, num_examples=3291
- download_size: 65788314
- dataset_size: 181388488
-
PHP:
- train: num_bytes=614654499, num_examples=241241
- validation: num_bytes=33283045, num_examples=12982
- test: num_bytes=35374993, num_examples=14014
- download_size: 219692158
- dataset_size: 683312537
-
Python:
- train: num_bytes=813663148, num_examples=251820
- validation: num_bytes=46888564, num_examples=13914
- test: num_bytes=50659688, num_examples=14918
- download_size: 325551862
- dataset_size: 911211400
-
Ruby:
- train: num_bytes=51956439, num_examples=24927
- validation: num_bytes=2821037, num_examples=1400
- test: num_bytes=2671551, num_examples=1261
- download_size: 21921316
- dataset_size: 57449027
-
数据集用途
- 支持任务: 机器翻译
- 具体用途: 用于训练模型自动生成英文文档字符串(docstrings)以描述代码。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集名为'code_x_glue_ct_code_to_text',是一个多语言代码到文本生成数据集,包含Go、Java、JavaScript、PHP、Python和Ruby等多种编程语言的代码片段及其对应的英文文档字符串。数据集经过严格过滤,确保代码可解析且文档字符串质量较高,适用于训练模型自动生成代码的英文文档。数据集结构清晰,包含代码、文档字符串及其分词版本,以及代码的元信息如仓库、路径等。
以上内容由遇见数据集搜集并总结生成



