Nan-Do/code-search-net-python
收藏Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nan-Do/code-search-net-python
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是CodeSearchNet的Python部分,带有摘要列。CodeSearchNet数据集包含在GitHub上找到的带有注释的开源函数。摘要是对函数功能的简短描述。数据集的注释为英文,函数代码为Python。数据集包含训练、测试和验证标签。该数据集可用于生成训练大型语言模型的有用数据集。
提供机构:
Nan-Do
原始信息汇总
数据集概述
数据集信息
特征
- repo: 字符串类型
- path: 字符串类型
- func_name: 字符串类型
- original_string: 字符串类型
- language: 字符串类型
- code: 字符串类型
- code_tokens: 字符串序列类型
- docstring: 字符串类型
- docstring_tokens: 字符串序列类型
- sha: 字符串类型
- url: 字符串类型
- partition: 字符串类型
- summary: 字符串类型
数据分割
- train:
- 字节数: 1772584117
- 示例数: 455243
数据集大小
- 下载大小: 598837908
- 数据集大小: 1772584117
许可证
- Apache-2.0
任务类别
- 文本生成
- 文本到文本生成
- 摘要
语言
- 英语
标签
- 代码
- Python
- CodeSearchNet
数据集名称
- Python CodeSearchNet with Summaries
数据集摘要
本数据集是CodeSearchNet的Python部分,包含一个摘要列。数据集包含GitHub上的开源函数及其注释。摘要列提供函数功能的简短描述。
语言
数据集中的注释为英语,函数代码使用Python编写。
数据分割
数据集包含训练、测试和验证标签。
数据集创建
创建时间:2023年5月
许可证信息
- Apache 2.0



