five

claudios/code_search_net

收藏
Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/claudios/code_search_net
下载链接
链接失效反馈
官方服务:
资源简介:
CodeSearchNet数据集是一个包含200万(注释,代码)对的数据集,这些数据来自GitHub上的开源库。数据集支持多种编程语言,包括Go、Java、JavaScript、PHP、Python和Ruby。该数据集主要用于代码检索任务,特别是使用自然语言进行代码检索。数据集的结构包括函数代码及其文档,以及函数的元数据,如提取自哪个仓库。数据集分为训练集、测试集和验证集三个部分。

CodeSearchNet数据集是一个包含200万(注释,代码)对的数据集,这些数据来自GitHub上的开源库。数据集支持多种编程语言,包括Go、Java、JavaScript、PHP、Python和Ruby。该数据集主要用于代码检索任务,特别是使用自然语言进行代码检索。数据集的结构包括函数代码及其文档,以及函数的元数据,如提取自哪个仓库。数据集分为训练集、测试集和验证集三个部分。
提供机构:
claudios
原始信息汇总

数据集概述

数据集名称: CodeSearchNet

数据集ID: codesearchnet

数据集别名: pretty_name: CodeSearchNet

数据集语言:

  • 代码(code)

数据集许可证:

  • 其他(other)

数据集多语言性:

  • 多语言(multilingual)

数据集大小类别:

  • 100K<n<1M
  • 10K<n<100K
  • 1M<n<10M

数据集源:

  • 原始(original)

数据集任务类别:

  • 文本生成(text-generation)
  • 填充掩码(fill-mask)

数据集任务ID:

  • 语言建模(language-modeling)
  • 掩码语言建模(masked-language-modeling)

数据集详细信息

数据集配置和特征:

  • 配置名称: all

    • 特征:
      • repository_name: 字符串
      • func_path_in_repository: 字符串
      • func_name: 字符串
      • whole_func_string: 字符串
      • language: 字符串
      • func_code_string: 字符串
      • func_documentation_string: 字符串
      • func_code_url: 字符串
    • 分割:
      • train: 1880853个示例,3722956913字节
      • test: 100529个示例,196789933字节
      • validation: 89154个示例,176665333字节
    • 下载大小: 1374970394字节
    • 数据集大小: 4096412179字节
  • 配置名称: go

    • 特征:
      • repository_name: 字符串
      • func_path_in_repository: 字符串
      • func_name: 字符串
      • whole_func_string: 字符串
      • language: 字符串
      • func_code_string: 字符串
      • func_documentation_string: 字符串
      • func_code_url: 字符串
    • 分割:
      • train: 317832个示例,409170909字节
      • test: 14291个示例,17800759字节
      • validation: 14242个示例,15005438字节
    • 下载大小: 150594843字节
    • 数据集大小: 441977106字节
  • 配置名称: java

    • 特征:
      • repository_name: 字符串
      • func_path_in_repository: 字符串
      • func_name: 字符串
      • whole_func_string: 字符串
      • language: 字符串
      • func_code_string: 字符串
      • func_documentation_string: 字符串
      • func_code_url: 字符串
    • 分割:
      • train: 454451个示例,908426737字节
      • test: 26909个示例,51425767字节
      • validation: 15328个示例,27050061字节
    • 下载大小: 292501337字节
    • 数据集大小: 986902565字节
  • 配置名称: javascript

    • 特征:
      • repository_name: 字符串
      • func_path_in_repository: 字符串
      • func_name: 字符串
      • whole_func_string: 字符串
      • language: 字符串
      • func_code_string: 字符串
      • func_documentation_string: 字符串
      • func_code_url: 字符串
    • 分割:
      • train: 123889个示例,290274945字节
      • test: 6483个示例,14699408字节
      • validation: 8253个示例,18327918字节
    • 下载大小: 120536692字节
    • 数据集大小: 323302271字节
  • 配置名称: php

    • 特征:
      • repository_name: 字符串
      • func_path_in_repository: 字符串
      • func_name: 字符串
      • whole_func_string: 字符串
      • language: 字符串
      • func_code_string: 字符串
      • func_documentation_string: 字符串
      • func_code_url: 字符串
    • 分割:
      • train: 523712个示例,955464342字节
      • test: 28391个示例,50005248字节
      • validation: 26015个示例,48431131字节
    • 下载大小: 346362115字节
    • 数据集大小: 1053900721字节
  • 配置名称: python

    • 特征:
      • repository_name: 字符串
      • func_path_in_repository: 字符串
      • func_name: 字符串
      • whole_func_string: 字符串
      • language: 字符串
      • func_code_string: 字符串
      • func_documentation_string: 字符串
      • func_code_url: 字符串
    • 分割:
      • train: 412178个示例,1086892447字节
      • test: 22176个示例,59417109字节
      • validation: 23107个示例,64756973字节
    • 下载大小: 435192611字节
    • 数据集大小: 1211066529字节
  • 配置名称: ruby

    • 特征:
      • repository_name: 字符串
      • func_path_in_repository: 字符串
      • func_name: 字符串
      • whole_func_string: 字符串
      • language: 字符串
      • func_code_string: 字符串
      • func_documentation_string: 字符串
      • func_code_url: 字符串
    • 分割:
      • train: 48791个示例,72727533字节
      • test: 2279个示例,3441642字节
      • validation: 2209个示例,3093812字节
    • 下载大小: 29488621字节
    • 数据集大小: 79262987字节

数据集配置名称:

  • all
  • go
  • java
  • javascript
  • php
  • python
  • ruby
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作