five

m-a-p/SciMMIR

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/m-a-p/SciMMIR
下载链接
链接失效反馈
官方服务:
资源简介:
SciMMIR数据集是一个用于评估科学领域中多模态信息检索(MMIR)模型的基准数据集。该数据集包含537K科学图像-文本对,这些数据是从2023年5月至2023年10月的Arxiv论文中提取的。数据集采用了两个子集,五个子类别的数据层次结构,并使用人工创建的关键词对数据进行分类。数据集可以通过HuggingFace的Datasets库获取,并提供了示例代码展示如何使用数据集。

SciMMIR数据集是一个用于评估科学领域中多模态信息检索(MMIR)模型的基准数据集。该数据集包含537K科学图像-文本对,这些数据是从2023年5月至2023年10月的Arxiv论文中提取的。数据集采用了两个子集,五个子类别的数据层次结构,并使用人工创建的关键词对数据进行分类。数据集可以通过HuggingFace的Datasets库获取,并提供了示例代码展示如何使用数据集。
提供机构:
m-a-p
原始信息汇总

数据集概述

数据集配置

  • 默认配置
    • 训练集:路径为 data/train-*
    • 验证集:路径为 data/validation-*
    • 测试集:路径为 data/test-*

数据集信息

  • 特征

    • image:图像数据
    • file_name_index:字符串类型
    • text:字符串类型
    • class:字符串类型
    • super_class:字符串类型
    • sub_class:字符串类型
    • split:字符串类型
  • 数据分割

    • 训练集
      • 字节数:59,242,453,844.635
      • 样本数:498,279
    • 验证集
      • 字节数:1,783,636,593.843
      • 样本数:16,433
    • 测试集
      • 字节数:1,874,022,111.346
      • 样本数:16,263
  • 数据集大小

    • 下载大小:63,729,889,852
    • 数据集大小:62,900,112,549.824005
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作