SOTA|机器学习数据集|性能评估数据集
收藏数据集概述
数据集结构
- 主目录:[dataset]/
- 训练集:[train]/
- 文章ID文件夹:[article-id-folder]/
- 文章文件:[article-id].tex
- 标注文件:annotations.json
- 文章ID文件夹:[article-id-folder]/
- 验证集:[validation]/
- 文章ID文件夹:[article-id-folder]/
- 文章文件:[article-id].tex
- 标注文件:annotations.json
- 文章ID文件夹:[article-id-folder]/
- 训练集:[train]/
数据集内容
- 数据集包含12,288篇训练论文和100篇验证论文。
- 每篇论文的
annotations.json
文件包含以下信息:- 若论文报告模型分数,则包含(任务,数据集,指标,分数)注释。
- 若论文未报告任何模型分数,则标注为“unanswerable”。
- 训练集包含7,936篇有leaderboard注释的论文和4,352篇无leaderboard注释的论文。
- 验证集包含51篇有leaderboard注释的论文和49篇无leaderboard注释的论文。
数据集统计
- 参数:train+validation (counts)
- 独特任务:1,372
- 独特数据集:4,795
- 独特指标:2,782
- 独特(任务,数据集,指标)三元组:11,977
- 平均(任务,数据集,指标)三元组每篇论文:6.93
常见任务、数据集和指标
- 最常见任务:
-
- 图像分类 (2273次)
-
- Atari游戏 (1448次)
-
- 最常见数据集:
-
- ImageNet (1603次)
-
- COCO test-dev (792次)
-
- 最常见指标:
-
- 准确率 (4383次)
-
- 分数 (1515次)
-
常见(任务,数据集,指标)三元组
- (任务,数据集,指标):Count
- (图像分类, ImageNet, top 1 准确率):524次
- (图像分类, ImageNet, 参数数量):313次
注释文件可发现性
- 任务:60.24%的注释标签可在伴随的论文全文找到。
- 数据集:45.48%的注释标签可在伴随的论文全文找到。
- 指标:42.69%的注释标签可在伴随的论文全文找到。
- 分数:58.86%的注释可在伴随的论文全文找到。
许可证

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
NREL Wind Integration National Dataset (WIND) Toolkit
NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。
www.nrel.gov 收录
Cifar-100
Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。
www.cs.toronto.edu 收录