jinaai/code_search_net_dedupe_only_annotated
收藏Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jinaai/code_search_net_dedupe_only_annotated
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: nwo
dtype: string
- name: sha
dtype: string
- name: path
dtype: string
- name: language
dtype: string
- name: identifier
dtype: string
- name: parameters
dtype: string
- name: argument_list
dtype: string
- name: return_statement
dtype: string
- name: docstring
dtype: string
- name: docstring_summary
dtype: string
- name: docstring_tokens
sequence: string
- name: function
dtype: string
- name: function_tokens
sequence: string
- name: url
dtype: string
- name: score
dtype: float64
splits:
- name: go
num_bytes: 317921
num_examples: 165
- name: java
num_bytes: 1764082
num_examples: 799
- name: javascript
num_bytes: 3674378
num_examples: 1818
- name: php
num_bytes: 653199
num_examples: 313
- name: python
num_bytes: 2184486
num_examples: 974
- name: ruby
num_bytes: 484389
num_examples: 305
download_size: 3487033
dataset_size: 9078455
configs:
- config_name: default
data_files:
- split: go
path: data/go-*
- split: java
path: data/java-*
- split: javascript
path: data/javascript-*
- split: php
path: data/php-*
- split: python
path: data/python-*
- split: ruby
path: data/ruby-*
---
提供机构:
jinaai
原始信息汇总
数据集概述
数据特征
- nwo: 字符串类型
- sha: 字符串类型
- path: 字符串类型
- language: 字符串类型
- identifier: 字符串类型
- parameters: 字符串类型
- argument_list: 字符串类型
- return_statement: 字符串类型
- docstring: 字符串类型
- docstring_summary: 字符串类型
- docstring_tokens: 字符串序列
- function: 字符串类型
- function_tokens: 字符串序列
- url: 字符串类型
- score: 浮点数类型
数据分割
- go: 317921字节,165个样本
- java: 1764082字节,799个样本
- javascript: 3674378字节,1818个样本
- php: 653199字节,313个样本
- python: 2184486字节,974个样本
- ruby: 484389字节,305个样本
数据集大小
- 下载大小: 3487033字节
- 数据集大小: 9078455字节
配置
- 默认配置:
- go: 数据路径为
data/go-* - java: 数据路径为
data/java-* - javascript: 数据路径为
data/javascript-* - php: 数据路径为
data/php-* - python: 数据路径为
data/python-* - ruby: 数据路径为
data/ruby-*
- go: 数据路径为



