claudios/code_search_net
收藏Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/claudios/code_search_net
下载链接
链接失效反馈官方服务:
资源简介:
CodeSearchNet数据集是一个包含200万(注释,代码)对的数据集,这些数据来自GitHub上的开源库。数据集支持多种编程语言,包括Go、Java、JavaScript、PHP、Python和Ruby。该数据集主要用于代码检索任务,特别是使用自然语言进行代码检索。数据集的结构包括函数代码及其文档,以及函数的元数据,如提取自哪个仓库。数据集分为训练集、测试集和验证集三个部分。
CodeSearchNet数据集是一个包含200万(注释,代码)对的数据集,这些数据来自GitHub上的开源库。数据集支持多种编程语言,包括Go、Java、JavaScript、PHP、Python和Ruby。该数据集主要用于代码检索任务,特别是使用自然语言进行代码检索。数据集的结构包括函数代码及其文档,以及函数的元数据,如提取自哪个仓库。数据集分为训练集、测试集和验证集三个部分。
提供机构:
claudios
原始信息汇总
数据集概述
数据集名称: CodeSearchNet
数据集ID: codesearchnet
数据集别名: pretty_name: CodeSearchNet
数据集语言:
- 代码(code)
数据集许可证:
- 其他(other)
数据集多语言性:
- 多语言(multilingual)
数据集大小类别:
- 100K<n<1M
- 10K<n<100K
- 1M<n<10M
数据集源:
- 原始(original)
数据集任务类别:
- 文本生成(text-generation)
- 填充掩码(fill-mask)
数据集任务ID:
- 语言建模(language-modeling)
- 掩码语言建模(masked-language-modeling)
数据集详细信息
数据集配置和特征:
-
配置名称: all
- 特征:
- repository_name: 字符串
- func_path_in_repository: 字符串
- func_name: 字符串
- whole_func_string: 字符串
- language: 字符串
- func_code_string: 字符串
- func_documentation_string: 字符串
- func_code_url: 字符串
- 分割:
- train: 1880853个示例,3722956913字节
- test: 100529个示例,196789933字节
- validation: 89154个示例,176665333字节
- 下载大小: 1374970394字节
- 数据集大小: 4096412179字节
- 特征:
-
配置名称: go
- 特征:
- repository_name: 字符串
- func_path_in_repository: 字符串
- func_name: 字符串
- whole_func_string: 字符串
- language: 字符串
- func_code_string: 字符串
- func_documentation_string: 字符串
- func_code_url: 字符串
- 分割:
- train: 317832个示例,409170909字节
- test: 14291个示例,17800759字节
- validation: 14242个示例,15005438字节
- 下载大小: 150594843字节
- 数据集大小: 441977106字节
- 特征:
-
配置名称: java
- 特征:
- repository_name: 字符串
- func_path_in_repository: 字符串
- func_name: 字符串
- whole_func_string: 字符串
- language: 字符串
- func_code_string: 字符串
- func_documentation_string: 字符串
- func_code_url: 字符串
- 分割:
- train: 454451个示例,908426737字节
- test: 26909个示例,51425767字节
- validation: 15328个示例,27050061字节
- 下载大小: 292501337字节
- 数据集大小: 986902565字节
- 特征:
-
配置名称: javascript
- 特征:
- repository_name: 字符串
- func_path_in_repository: 字符串
- func_name: 字符串
- whole_func_string: 字符串
- language: 字符串
- func_code_string: 字符串
- func_documentation_string: 字符串
- func_code_url: 字符串
- 分割:
- train: 123889个示例,290274945字节
- test: 6483个示例,14699408字节
- validation: 8253个示例,18327918字节
- 下载大小: 120536692字节
- 数据集大小: 323302271字节
- 特征:
-
配置名称: php
- 特征:
- repository_name: 字符串
- func_path_in_repository: 字符串
- func_name: 字符串
- whole_func_string: 字符串
- language: 字符串
- func_code_string: 字符串
- func_documentation_string: 字符串
- func_code_url: 字符串
- 分割:
- train: 523712个示例,955464342字节
- test: 28391个示例,50005248字节
- validation: 26015个示例,48431131字节
- 下载大小: 346362115字节
- 数据集大小: 1053900721字节
- 特征:
-
配置名称: python
- 特征:
- repository_name: 字符串
- func_path_in_repository: 字符串
- func_name: 字符串
- whole_func_string: 字符串
- language: 字符串
- func_code_string: 字符串
- func_documentation_string: 字符串
- func_code_url: 字符串
- 分割:
- train: 412178个示例,1086892447字节
- test: 22176个示例,59417109字节
- validation: 23107个示例,64756973字节
- 下载大小: 435192611字节
- 数据集大小: 1211066529字节
- 特征:
-
配置名称: ruby
- 特征:
- repository_name: 字符串
- func_path_in_repository: 字符串
- func_name: 字符串
- whole_func_string: 字符串
- language: 字符串
- func_code_string: 字符串
- func_documentation_string: 字符串
- func_code_url: 字符串
- 分割:
- train: 48791个示例,72727533字节
- test: 2279个示例,3441642字节
- validation: 2209个示例,3093812字节
- 下载大小: 29488621字节
- 数据集大小: 79262987字节
- 特征:
数据集配置名称:
- all
- go
- java
- javascript
- php
- python
- ruby



