SOTA|机器学习数据集|性能评估数据集
收藏数据集概述
数据集结构
- 主目录:[dataset]/
- 训练集:[train]/
- 文章ID文件夹:[article-id-folder]/
- 文章文件:[article-id].tex
- 标注文件:annotations.json
- 文章ID文件夹:[article-id-folder]/
- 验证集:[validation]/
- 文章ID文件夹:[article-id-folder]/
- 文章文件:[article-id].tex
- 标注文件:annotations.json
- 文章ID文件夹:[article-id-folder]/
- 训练集:[train]/
数据集内容
- 数据集包含12,288篇训练论文和100篇验证论文。
- 每篇论文的
annotations.json
文件包含以下信息:- 若论文报告模型分数,则包含(任务,数据集,指标,分数)注释。
- 若论文未报告任何模型分数,则标注为“unanswerable”。
- 训练集包含7,936篇有leaderboard注释的论文和4,352篇无leaderboard注释的论文。
- 验证集包含51篇有leaderboard注释的论文和49篇无leaderboard注释的论文。
数据集统计
- 参数:train+validation (counts)
- 独特任务:1,372
- 独特数据集:4,795
- 独特指标:2,782
- 独特(任务,数据集,指标)三元组:11,977
- 平均(任务,数据集,指标)三元组每篇论文:6.93
常见任务、数据集和指标
- 最常见任务:
-
- 图像分类 (2273次)
-
- Atari游戏 (1448次)
-
- 最常见数据集:
-
- ImageNet (1603次)
-
- COCO test-dev (792次)
-
- 最常见指标:
-
- 准确率 (4383次)
-
- 分数 (1515次)
-
常见(任务,数据集,指标)三元组
- (任务,数据集,指标):Count
- (图像分类, ImageNet, top 1 准确率):524次
- (图像分类, ImageNet, 参数数量):313次
注释文件可发现性
- 任务:60.24%的注释标签可在伴随的论文全文找到。
- 数据集:45.48%的注释标签可在伴随的论文全文找到。
- 指标:42.69%的注释标签可在伴随的论文全文找到。
- 分数:58.86%的注释可在伴随的论文全文找到。
许可证

MNIST
The MNIST database (Modified National Institute of Standards and Technology database) is a large collection of handwritten digits. It has a training set of 60,000 examples, and a test set of 10,000 examples. It is a subset of a larger NIST Special Database 3 (digits written by employees of the United States Census Bureau) and Special Database 1 (digits written by high school students) which contain monochrome images of handwritten digits. The digits have been size-normalized and centered in a fixed-size image. The original black and white (bilevel) images from NIST were size normalized to fit in a 20x20 pixel box while preserving their aspect ratio. The resulting images contain grey levels as a result of the anti-aliasing technique used by the normalization algorithm. the images were centered in a 28x28 image by computing the center of mass of the pixels, and translating the image so as to position this point at the center of the 28x28 field.
Papers with Code 收录
红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录
China License Plate Dataset
该数据集包含从互联网搜索、手机拍摄或车载记录仪捕获的多种真实场景下的车牌图像。数据集涵盖了不同拍摄角度、时间、分辨率和背景条件,包括多种车辆类型如卡车、轿车、警车和新能源车辆。新能源车辆车牌有八个字母,其他车辆车牌有七个字母,允许部分遮挡的车牌。所有图像均手动标注了边界框和车牌字母。数据集包含来自中国大陆31个省份的1200张车牌图像。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录