code-search-net/code_search_net|代码检索数据集|自然语言处理数据集
收藏CodeSearchNet 数据集概述
数据集描述
基本信息
- 数据集名称: CodeSearchNet
- 数据类型: 代码和文档对
- 语言: 代码(多种编程语言)
- 许可证: 其他
- 多语言性: 多语言
- 数据规模: 10K<n<100K, 100K<n<1M, 1M<n<10M
- 源数据: 原始数据
- 任务类别: 文本生成, 填充掩码
- 任务ID: 语言建模, 掩码语言建模
- PapersWithCode ID: codesearchnet
- 配置名称: all, go, java, javascript, php, python, ruby
数据实例
一个数据点包含函数代码及其文档,以及函数的元数据,如仓库名称等。
数据字段
id
: 任意数字repository_name
: GitHub仓库名称func_path_in_repository
: 仓库中文件的路径func_name
: 函数名称whole_func_string
: 函数代码 + 文档language
: 编程语言func_code_string
: 函数代码func_code_tokens
: 由Treesitter生成的代码标记func_documentation_string
: 函数文档func_documentation_string_tokens
: 由Treesitter生成的文档标记split_name
: 数据分割名称(train, test, valid)func_code_url
: GitHub上函数代码的URL
数据分割
- 训练集:
all
: 1880853个样本, 5850604083字节java
: 454451个样本, 1429272535字节go
: 317832个样本, 738153234字节python
: 412178个样本, 1559645310字节javascript
: 123889个样本, 480286523字节ruby
: 48791个样本, 110681715字节php
: 523712个样本, 1532564870字节
- 测试集:
all
: 100529个样本, 308626333字节java
: 26909个样本, 82377246字节go
: 14291个样本, 32286998字节python
: 22176个样本, 84342064字节javascript
: 6483个样本, 24056972字节ruby
: 2279个样本, 5359280字节php
: 28391个样本, 80203877字节
- 验证集:
all
: 89154个样本, 274564382字节java
: 15328个样本, 42358315字节go
: 14242个样本, 26888527字节python
: 23107个样本, 92154786字节javascript
: 8253个样本, 30168242字节ruby
: 2209个样本, 4830744字节php
: 26015个样本, 78163924字节
数据集大小
- 下载大小: 5117370511字节
- 数据集大小: 6433794798字节
数据集创建
数据收集和规范化
数据集从公开可用的非fork GitHub仓库收集,使用libraries.io识别至少被一个其他项目使用的项目,并按星标和fork数量排序。移除没有明确允许重新分发许可证的项目。使用Treesitter对所有Go、Java、JavaScript、Python、PHP和Ruby函数及其文档进行标记化。
数据过滤
移除没有文档的函数,截断文档到第一个完整段落,移除短于三个标记的文档和短于三行的函数实现,移除名称包含“test”的函数,移除构造函数和标准扩展方法,移除重复和近似重复的函数。
源语言生产者
开源贡献者生成了代码和文档,数据集是自动收集和预处理的。

RFUAV
RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。
arXiv 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
TCIA: The Cancer Imaging Archive
TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。
www.cancerimagingarchive.net 收录
中国1km分辨率逐月平均气温数据集(1901-2024)
该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录