m-a-p/SciMMIR
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/m-a-p/SciMMIR
下载链接
链接失效反馈官方服务:
资源简介:
SciMMIR数据集是一个用于评估科学领域中多模态信息检索(MMIR)模型的基准数据集。该数据集包含537K科学图像-文本对,这些数据是从2023年5月至2023年10月的Arxiv论文中提取的。数据集采用了两个子集,五个子类别的数据层次结构,并使用人工创建的关键词对数据进行分类。数据集可以通过HuggingFace的Datasets库获取,并提供了示例代码展示如何使用数据集。
SciMMIR数据集是一个用于评估科学领域中多模态信息检索(MMIR)模型的基准数据集。该数据集包含537K科学图像-文本对,这些数据是从2023年5月至2023年10月的Arxiv论文中提取的。数据集采用了两个子集,五个子类别的数据层次结构,并使用人工创建的关键词对数据进行分类。数据集可以通过HuggingFace的Datasets库获取,并提供了示例代码展示如何使用数据集。
提供机构:
m-a-p
原始信息汇总
数据集概述
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
-
特征:
image:图像数据file_name_index:字符串类型text:字符串类型class:字符串类型super_class:字符串类型sub_class:字符串类型split:字符串类型
-
数据分割:
- 训练集:
- 字节数:59,242,453,844.635
- 样本数:498,279
- 验证集:
- 字节数:1,783,636,593.843
- 样本数:16,433
- 测试集:
- 字节数:1,874,022,111.346
- 样本数:16,263
- 训练集:
-
数据集大小:
- 下载大小:63,729,889,852
- 数据集大小:62,900,112,549.824005



