AISE-TUDelft/ML4SE23_G8_CodeSearchNet-Python
收藏Hugging Face2023-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AISE-TUDelft/ML4SE23_G8_CodeSearchNet-Python
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于微调WizardCoder-1B-V1.0模型,专注于代码摘要任务。它是CodeXGLUE CodeSearchNet代码到文本数据集中Python子集的清理版本,清理了代码列中的文档字符串。数据集包含多个特征,如id、repo、path、func_name、original_string、language、code、code_tokens、docstring、docstring_tokens、sha和url。数据集分为训练集、验证集和测试集,分别包含251820、13914和14918个样本。
提供机构:
AISE-TUDelft
原始信息汇总
数据集概述
数据集名称
ML4SE23_G8_CodeSearchNet-Python
数据集描述
该数据集是用于在代码摘要任务上微调 WizardCoder-1B-V1.0 的。它是从 CodeXGLUE CodeSearchNet code-to-text 数据集 的 Python 子集中清理出来的版本。原始的 Python 子集在 code 列中包含了文档字符串,而这个数据集的 code 列已经被清理,去除了文档字符串。
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集特征
- id:数据类型为
int32 - repo:数据类型为
string - path:数据类型为
string - func_name:数据类型为
string - original_string:数据类型为
string - language:数据类型为
string - code:数据类型为
string - code_tokens:序列类型为
string - docstring:数据类型为
string - docstring_tokens:序列类型为
string - sha:数据类型为
string - url:数据类型为
string
数据集切分
- 训练集:
- 字节数:752373428
- 样本数:251820
- 验证集:
- 字节数:43293612
- 样本数:13914
- 测试集:
- 字节数:46733051
- 样本数:14918
数据集大小
- 下载大小:297684501 字节
- 数据集大小:842400091 字节
许可证
c-uda



