five

SOTA|机器学习数据集|性能评估数据集

收藏
github2024-05-16 更新2024-05-31 收录
机器学习
性能评估
下载链接:
https://github.com/jd-coderepos/sota
下载链接
链接失效反馈
资源简介:
该数据集用于SOTA任务的训练和验证,包含从arXiv下载的学术论文的LaTeX格式文件,以及相关的(任务, 数据集, 指标, 分数)注释。数据集旨在帮助开发和评估机器学习模型,以优化其在速度、准确性和存储方面的性能。

This dataset is designed for the training and validation of SOTA (State-of-the-Art) tasks, encompassing LaTeX format files of academic papers downloaded from arXiv, along with relevant annotations of (task, dataset, metric, score). The dataset aims to facilitate the development and evaluation of machine learning models, optimizing their performance in terms of speed, accuracy, and storage.
创建时间:
2023-04-16
原始信息汇总

数据集概述

数据集结构

  • 主目录:[dataset]/
    • 训练集:[train]/
      • 文章ID文件夹:[article-id-folder]/
        • 文章文件:[article-id].tex
        • 标注文件:annotations.json
    • 验证集:[validation]/
      • 文章ID文件夹:[article-id-folder]/
        • 文章文件:[article-id].tex
        • 标注文件:annotations.json

数据集内容

  • 数据集包含12,288篇训练论文和100篇验证论文。
  • 每篇论文的annotations.json文件包含以下信息:
    • 若论文报告模型分数,则包含(任务,数据集,指标,分数)注释。
    • 若论文未报告任何模型分数,则标注为“unanswerable”。
  • 训练集包含7,936篇有leaderboard注释的论文和4,352篇无leaderboard注释的论文。
  • 验证集包含51篇有leaderboard注释的论文和49篇无leaderboard注释的论文。

数据集统计

  • 参数:train+validation (counts)
    • 独特任务:1,372
    • 独特数据集:4,795
    • 独特指标:2,782
    • 独特(任务,数据集,指标)三元组:11,977
    • 平均(任务,数据集,指标)三元组每篇论文:6.93

常见任务、数据集和指标

  • 最常见任务
      1. 图像分类 (2273次)
      1. Atari游戏 (1448次)
  • 最常见数据集
      1. ImageNet (1603次)
      1. COCO test-dev (792次)
  • 最常见指标
      1. 准确率 (4383次)
      1. 分数 (1515次)

常见(任务,数据集,指标)三元组

  • (任务,数据集,指标):Count
    • (图像分类, ImageNet, top 1 准确率):524次
    • (图像分类, ImageNet, 参数数量):313次

注释文件可发现性

  • 任务:60.24%的注释标签可在伴随的论文全文找到。
  • 数据集:45.48%的注释标签可在伴随的论文全文找到。
  • 指标:42.69%的注释标签可在伴随的论文全文找到。
  • 分数:58.86%的注释可在伴随的论文全文找到。

许可证

AI搜集汇总
数据集介绍
main_image_url
构建方式
SOTA数据集的构建基于从paperswithcode.com获取的学术论文,这些论文以LaTeX格式从arXiv下载,并包含详细的任务、数据集、指标和分数的标注信息。数据集分为训练集、验证集和测试集,其中训练集和验证集包含12,288篇论文,测试集分为few-shot和zero-shot两部分。每篇论文的标注文件(annotations.json)包含任务、数据集、指标和分数的四元组,或标记为‘unanswerable’以表示该论文未报告模型分数。数据集的构建旨在帮助研究人员自动检测和提取学术论文中的性能指标,从而推动人工智能研究的前沿。
特点
SOTA数据集的主要特点在于其丰富的标注信息和多样化的任务、数据集和指标组合。数据集中包含1,372个独特任务、4,795个独特数据集和2,782个独特指标,形成了11,977个独特的(任务, 数据集, 指标)三元组。此外,数据集中的每篇论文都附有详细的标注文件,帮助模型区分有性能报告的论文和无性能报告的论文。数据集的多样性和详细标注使其成为评估和改进机器学习模型性能的理想资源。
使用方法
SOTA数据集的使用方法主要包括训练和评估机器学习模型,以自动检测和提取学术论文中的性能指标。研究人员可以使用训练集和验证集来训练模型,使其能够区分有性能报告的论文和无性能报告的论文,并从中提取(任务, 数据集, 指标, 分数)四元组。测试集则用于评估模型的性能,特别是其在few-shot和zero-shot场景下的表现。通过使用该数据集,研究人员可以开发出更高效的模型,以自动跟踪和更新人工智能研究中的最新成果。
背景与挑战
背景概述
SOTA数据集,全称为‘SOTA? Tracking the State-of-the-Art in Scholarly Publications’,是由SimpleText项目在2024年推出的一个专门用于追踪学术出版物中人工智能研究最新进展的数据集。该数据集的核心研究问题是如何自动识别和提取学术论文中的任务、数据集、评估指标及其对应的模型性能,从而帮助研究人员快速获取当前最先进的研究成果。SOTA数据集的构建基于paperswithcode.com的资源,包含了超过12,000篇学术论文,涵盖了1,372个独特任务、4,795个数据集和2,782个评估指标。该数据集的发布不仅为人工智能领域的研究提供了宝贵的资源,还推动了自动化工具在学术研究中的应用,极大地提升了研究效率。
当前挑战
SOTA数据集在构建过程中面临多项挑战。首先,数据集的规模庞大,包含超过12,000篇论文,且每篇论文的格式和内容各异,如何高效地处理和标注这些数据是一个巨大的技术难题。其次,数据集中存在大量未标注的论文,这些论文未报告任何模型性能,导致无法生成相应的排行榜数据,这要求模型能够准确区分有标注和无标注的论文。此外,数据集中任务、数据集和评估指标的多样性也为模型的训练和评估带来了挑战,模型需要具备强大的泛化能力以应对不同类型的任务和指标。最后,数据集中部分标注信息与论文全文的匹配度较低,如何提高标注的准确性和完整性也是亟待解决的问题。
常用场景
经典使用场景
SOTA数据集在人工智能研究领域中,主要用于追踪和评估机器学习模型在特定任务上的最新性能。通过该数据集,研究者能够系统地分析不同模型在各类任务中的表现,如图像分类、对象检测等,从而推动人工智能技术的边界。
解决学术问题
SOTA数据集解决了学术界在追踪和比较机器学习模型性能方面的难题。它通过提供详细的任务、数据集、指标和分数的注释,帮助研究者快速定位和比较不同模型的性能,从而加速新算法的开发和验证。
衍生相关工作
基于SOTA数据集,研究者开发了多种用于自动检测和更新机器学习模型性能的工具和平台。这些工具不仅提高了研究效率,还促进了跨领域的知识共享和技术进步,如Papers with Code和Open Research Knowledge Graph等平台的构建。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

NREL Wind Integration National Dataset (WIND) Toolkit

NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。

www.nrel.gov 收录

Cifar-100

Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。

www.cs.toronto.edu 收录