five

Nan-Do/code-search-net-python

收藏
Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nan-Do/code-search-net-python
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是CodeSearchNet的Python部分,带有摘要列。CodeSearchNet数据集包含在GitHub上找到的带有注释的开源函数。摘要是对函数功能的简短描述。数据集的注释为英文,函数代码为Python。数据集包含训练、测试和验证标签。该数据集可用于生成训练大型语言模型的有用数据集。
提供机构:
Nan-Do
原始信息汇总

数据集概述

数据集信息

特征

  • repo: 字符串类型
  • path: 字符串类型
  • func_name: 字符串类型
  • original_string: 字符串类型
  • language: 字符串类型
  • code: 字符串类型
  • code_tokens: 字符串序列类型
  • docstring: 字符串类型
  • docstring_tokens: 字符串序列类型
  • sha: 字符串类型
  • url: 字符串类型
  • partition: 字符串类型
  • summary: 字符串类型

数据分割

  • train:
    • 字节数: 1772584117
    • 示例数: 455243

数据集大小

  • 下载大小: 598837908
  • 数据集大小: 1772584117

许可证

  • Apache-2.0

任务类别

  • 文本生成
  • 文本到文本生成
  • 摘要

语言

  • 英语

标签

  • 代码
  • Python
  • CodeSearchNet

数据集名称

  • Python CodeSearchNet with Summaries

数据集摘要

本数据集是CodeSearchNet的Python部分,包含一个摘要列。数据集包含GitHub上的开源函数及其注释。摘要列提供函数功能的简短描述。

语言

数据集中的注释为英语,函数代码使用Python编写。

数据分割

数据集包含训练、测试和验证标签。

数据集创建

创建时间:2023年5月

许可证信息

  • Apache 2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作