code-search-net/code_search_net|代码检索数据集|自然语言处理数据集
收藏CodeSearchNet 数据集概述
数据集描述
基本信息
- 数据集名称: CodeSearchNet
- 数据类型: 代码和文档对
- 语言: 代码(多种编程语言)
- 许可证: 其他
- 多语言性: 多语言
- 数据规模: 10K<n<100K, 100K<n<1M, 1M<n<10M
- 源数据: 原始数据
- 任务类别: 文本生成, 填充掩码
- 任务ID: 语言建模, 掩码语言建模
- PapersWithCode ID: codesearchnet
- 配置名称: all, go, java, javascript, php, python, ruby
数据实例
一个数据点包含函数代码及其文档,以及函数的元数据,如仓库名称等。
数据字段
id
: 任意数字repository_name
: GitHub仓库名称func_path_in_repository
: 仓库中文件的路径func_name
: 函数名称whole_func_string
: 函数代码 + 文档language
: 编程语言func_code_string
: 函数代码func_code_tokens
: 由Treesitter生成的代码标记func_documentation_string
: 函数文档func_documentation_string_tokens
: 由Treesitter生成的文档标记split_name
: 数据分割名称(train, test, valid)func_code_url
: GitHub上函数代码的URL
数据分割
- 训练集:
all
: 1880853个样本, 5850604083字节java
: 454451个样本, 1429272535字节go
: 317832个样本, 738153234字节python
: 412178个样本, 1559645310字节javascript
: 123889个样本, 480286523字节ruby
: 48791个样本, 110681715字节php
: 523712个样本, 1532564870字节
- 测试集:
all
: 100529个样本, 308626333字节java
: 26909个样本, 82377246字节go
: 14291个样本, 32286998字节python
: 22176个样本, 84342064字节javascript
: 6483个样本, 24056972字节ruby
: 2279个样本, 5359280字节php
: 28391个样本, 80203877字节
- 验证集:
all
: 89154个样本, 274564382字节java
: 15328个样本, 42358315字节go
: 14242个样本, 26888527字节python
: 23107个样本, 92154786字节javascript
: 8253个样本, 30168242字节ruby
: 2209个样本, 4830744字节php
: 26015个样本, 78163924字节
数据集大小
- 下载大小: 5117370511字节
- 数据集大小: 6433794798字节
数据集创建
数据收集和规范化
数据集从公开可用的非fork GitHub仓库收集,使用libraries.io识别至少被一个其他项目使用的项目,并按星标和fork数量排序。移除没有明确允许重新分发许可证的项目。使用Treesitter对所有Go、Java、JavaScript、Python、PHP和Ruby函数及其文档进行标记化。
数据过滤
移除没有文档的函数,截断文档到第一个完整段落,移除短于三个标记的文档和短于三行的函数实现,移除名称包含“test”的函数,移除构造函数和标准扩展方法,移除重复和近似重复的函数。
源语言生产者
开源贡献者生成了代码和文档,数据集是自动收集和预处理的。

WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录