AISE-TUDelft/ML4SE23_G8_CodeSearchNet-Python

Name: AISE-TUDelft/ML4SE23_G8_CodeSearchNet-Python
Creator: AISE-TUDelft
Published: 2023-11-06 14:36:36
License: 暂无描述

Hugging Face2023-11-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AISE-TUDelft/ML4SE23_G8_CodeSearchNet-Python

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于微调WizardCoder-1B-V1.0模型，专注于代码摘要任务。它是CodeXGLUE CodeSearchNet代码到文本数据集中Python子集的清理版本，清理了代码列中的文档字符串。数据集包含多个特征，如id、repo、path、func_name、original_string、language、code、code_tokens、docstring、docstring_tokens、sha和url。数据集分为训练集、验证集和测试集，分别包含251820、13914和14918个样本。

提供机构：

AISE-TUDelft

原始信息汇总

数据集概述

数据集名称

ML4SE23_G8_CodeSearchNet-Python

数据集描述

该数据集是用于在代码摘要任务上微调 WizardCoder-1B-V1.0 的。它是从 CodeXGLUE CodeSearchNet code-to-text 数据集的 Python 子集中清理出来的版本。原始的 Python 子集在 code 列中包含了文档字符串，而这个数据集的 code 列已经被清理，去除了文档字符串。

数据集配置

默认配置：
- 训练集：路径为 data/train-*
- 验证集：路径为 data/validation-*
- 测试集：路径为 data/test-*

数据集特征

id：数据类型为 int32
repo：数据类型为 string
path：数据类型为 string
func_name：数据类型为 string
original_string：数据类型为 string
language：数据类型为 string
code：数据类型为 string
code_tokens：序列类型为 string
docstring：数据类型为 string
docstring_tokens：序列类型为 string
sha：数据类型为 string
url：数据类型为 string

数据集切分

训练集：
- 字节数：752373428
- 样本数：251820
验证集：
- 字节数：43293612
- 样本数：13914
测试集：
- 字节数：46733051
- 样本数：14918

数据集大小

下载大小：297684501 字节
数据集大小：842400091 字节

许可证

c-uda

5,000+

优质数据集

54 个

任务类型

进入经典数据集