five

AISE-TUDelft/ML4SE23_G8_CodeSearchNet-Python

收藏
Hugging Face2023-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AISE-TUDelft/ML4SE23_G8_CodeSearchNet-Python
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于微调WizardCoder-1B-V1.0模型,专注于代码摘要任务。它是CodeXGLUE CodeSearchNet代码到文本数据集中Python子集的清理版本,清理了代码列中的文档字符串。数据集包含多个特征,如id、repo、path、func_name、original_string、language、code、code_tokens、docstring、docstring_tokens、sha和url。数据集分为训练集、验证集和测试集,分别包含251820、13914和14918个样本。
提供机构:
AISE-TUDelft
原始信息汇总

数据集概述

数据集名称

ML4SE23_G8_CodeSearchNet-Python

数据集描述

该数据集是用于在代码摘要任务上微调 WizardCoder-1B-V1.0 的。它是从 CodeXGLUE CodeSearchNet code-to-text 数据集 的 Python 子集中清理出来的版本。原始的 Python 子集在 code 列中包含了文档字符串,而这个数据集的 code 列已经被清理,去除了文档字符串。

数据集配置

  • 默认配置
    • 训练集:路径为 data/train-*
    • 验证集:路径为 data/validation-*
    • 测试集:路径为 data/test-*

数据集特征

  • id:数据类型为 int32
  • repo:数据类型为 string
  • path:数据类型为 string
  • func_name:数据类型为 string
  • original_string:数据类型为 string
  • language:数据类型为 string
  • code:数据类型为 string
  • code_tokens:序列类型为 string
  • docstring:数据类型为 string
  • docstring_tokens:序列类型为 string
  • sha:数据类型为 string
  • url:数据类型为 string

数据集切分

  • 训练集
    • 字节数:752373428
    • 样本数:251820
  • 验证集
    • 字节数:43293612
    • 样本数:13914
  • 测试集
    • 字节数:46733051
    • 样本数:14918

数据集大小

  • 下载大小:297684501 字节
  • 数据集大小:842400091 字节

许可证

c-uda

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作