five

mehrankazemi/ReMI

收藏
Hugging Face2024-06-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/mehrankazemi/ReMI
下载链接
链接失效反馈
官方服务:
资源简介:
ReMI数据集在论文《ReMI: A Dataset for Reasoning with Multiple Images》中引入,包含13个任务,分别是:EmojiAlgebra、FuncRead、GeomShape、GeomCost、Collisions、Clocks、Schedule、Charts、CodeEdit、Isomorphism、Maps、RefCOCO和IQ。数据集主要用于多图像推理,数据分为训练集和测试集,训练集包含每个任务的2个示例,测试集包含每个任务的200个示例。数据格式包括问题、标签、任务和图像字段。数据来源包括可视化库、Google Maps截图和COCO图像。数据集主要用于测试,禁止用于训练。
提供机构:
mehrankazemi
原始信息汇总

数据集描述

ReMI 是一个多模态问答数据集,包含13个任务:EmojiAlgebra, FuncRead, GeomShape, GeomCost, Collisions, Clocks, Schedule, Charts, CodeEdit, Isomorphism, Maps, RefCOCO, 和 IQ。

数据集使用

数据下载

数据集分为两个子集:traintest

  • train: 每个任务包含2个示例(共26个),用于fewshot示例。
  • test: 每个任务包含200个示例(共2600个),用于评估。

下载数据集需要安装 Huggingface Datasets,然后使用以下命令:

python from datasets import load_dataset

dataset = load_dataset("mehrankazemi/ReMI")

数据格式

数据集包含以下字段:

  • question: 包含问题的文本,问题中包含<image1>、<image2>等标签,应替换为第i个图像。
  • label: 包含问题的答案。
  • task: 对应数据集中的13个任务之一。
  • image_i: (i在[1, 6]范围内)包含第i个图像的字节。

数据来源

ReMI 通过以下方式创建:1- 使用matplotlib等可视化库,渲染LaTeX中的TikZ代码,NetworkX等,2- 从Google Maps截图,3- 从COCO获取图像。

  • 目的: ReMI主要设计为测试集。
  • 禁止: 禁止将ReMI用作训练集。

引用

@article{kazemi2024remi, title={ReMI: A Dataset for Reasoning with Multiple Images}, author={Kazemi, Mehran and Dikkala, Nishanth and Anand, Ankit and Devic, Petar and Dasgupta, Ishita and Liu, Fangyu and Fatemi, Bahare and Awasthi, Pranjal and Guo, Dee and Gollapudi, Sreenivas and Qureshi, Ahmed}, journal={arXiv preprint arXiv:2406.09175}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作