TIGER-Lab/Mantis-Instruct|多模态学习数据集|图像理解数据集

hugging_face2024-12-25 更新2024-05-25 收录

多模态学习

图像理解

下载链接：

https://hf-mirror.com/datasets/TIGER-Lab/Mantis-Instruct

下载链接

链接失效反馈

资源简介：

Mantis-Instruct是一个完整的文本-图像交错的多模态指令调优数据集，包含来自14个子集的721K个示例，涵盖了包括共指、推理、比较、时间理解在内的多图像技能。该数据集已被用于训练Mantis模型系列。Mantis-Instruct总共包含721K个实例，由14个子集组成，涵盖了所有多图像技能。在14个子集中，有10个子集来自现有数据集，例如NLVR2、IconQA等用于推理技能；DreamSim、Birds-to-Words等用于比较技能；NExT-QA、STAR等用于时间理解技能。我们还额外整理了四个新数据集LLaVA-665k-multi、LRV-multi来涵盖共指技能，以及Contrast-Caption、Multi-VQA来拓宽推理技能，其中Multi-VQA是通过提示GPT-4生成的。

Mantis-Instruct is a fully text-image interleaved multimodal instruction tuning dataset, containing 721K examples from 14 subsets and covering multi-image skills including co-reference, reasoning, comparing, temporal understanding. It has been used to train Mantis Model families.

提供机构：

TIGER-Lab

原始信息汇总

数据集概述

数据集配置列表

配置名称	特征描述	分割信息	下载大小	数据集大小
birds-to-words	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 981828 bytes, 2649 examples<br>- val: 114375 bytes, 322 examples	2294357	1096203
chartqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 4748298 bytes, 28299 examples<br>- val: 320087 bytes, 1920 examples	2426916	5068385
coinstruct	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 197520925 bytes, 150918 examples	64198480	197520925
contrastive_caption	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 134399182 bytes, 35984 examples	64112628	134399182
docvqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 6597409 bytes, 39463 examples	2770464	6597409
dreamsim	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 6577989 bytes, 15941 examples<br>- val: 809546 bytes, 1958 examples	1051358	7387535
dvqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 239538206 bytes, 200000 examples	44772738	239538206
iconqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 20700263 bytes, 64462 examples	5304186	20700263
imagecode	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 19215257 bytes, 16594 examples	3033029	19215257
llava_665k_multi	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 607836814 bytes, 312611 examples	209201688	607836814
lrv_multi	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 72060224 bytes, 8453 examples	30088343	72060224
nextqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 7539318 bytes, 3870 examples	3445284	7539318
nlvr2	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 30889488 bytes, 86373 examples<br>- val: 2465147 bytes, 6982 examples	18014755	33354635
spot-the-diff	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 3779184 bytes, 8007 examples	1207995	3779184
star	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 8370531 bytes, 3032 examples	1890570	8370531
multi_vqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 24396128 bytes, 4993 examples	10885960	24396128
visual_story_telling	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 18468574 bytes, 6661 examples	8019828	18468574

数据集加载方法

手动下载和处理图像： python import datasets dataset = datasets.load_dataset("TIGER-Lab/Mantis-Instruct", "multi_vqa")
自动下载和处理图像： python import datasets dataset = datasets.load_dataset("TIGER-Lab/Mantis-Instruct", "multi_vqa", revision="script")
加载所有子集： python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("TIGER-Lab/Mantis-Instruct", config_name)
自动下载所有子集： python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("TIGER-Lab/Mantis-Instruct", config_name, revision="script")

AI搜集汇总

数据集介绍

构建方式

Mantis-Instruct 数据集的构建采用了完全文本图像交错的多模态指令微调方式，从14个子集中汇集了721K个示例，涵盖了包括共指、推理、比较、时间理解等多图像技能。该数据集整合了现有数据集的部分子集，如NLVR2、IconQA等用于推理技能；DreamSim、Birds-to-Words等用于比较技能；NExT-QA、STAR等用于时间理解技能。同时，还额外策划了四个新数据集，如LLaVA-665k-multi、LRV-multi以覆盖共指技能，以及Contrast-Caption、Multi-VQA以拓宽推理技能，其中Multi-VQA是通过提示GPT-4生成的。

使用方法

使用Mantis-Instruct数据集时，用户可以根据需要加载整个数据集或其子集。若需手动下载并处理图像，用户需从数据集的修订分支中获取图像压缩包，并在本地设置有效路径。若选择自动下载和处理图像，需确保使用datasets库的2.18.0版本。此外，用户还可以通过加载所有子集来获取更全面的数据覆盖，以进行深入的多模态研究。

背景与挑战

背景概述

Mantis-Instruct数据集，由TIGER-Lab团队创建，是一个全新的文本-图像交织的多模态指令微调数据集。该数据集包含721K个示例，涵盖14个子集，包括指代、推理、比较、时间理解等多图像技能。Mantis-Instruct的构建旨在训练Mantis模型家族，并已被广泛应用于多模态指令学习的相关研究中。该数据集的创建时间为2024年，主要研究人员包括Dongfu Jiang、Xuan He、Huaye Zeng等，所属机构为TIGER-Lab。Mantis-Instruct对相关领域的影响力体现在其全面覆盖多图像技能的子集，为多模态学习提供了丰富的资源和基准。

当前挑战

Mantis-Instruct数据集在构建过程中面临的挑战主要包括：1)如何确保数据集中的图像和文本能够准确对应，以利于模型的指令理解；2)如何处理和平衡不同技能子集之间的数据分布，以保证模型能够在各种技能上都有良好的学习效果；3)在多模态数据集构建中，如何有效处理和利用大规模图像数据，保证数据质量和训练效率。这些挑战对于提升数据集的质量和微调模型的性能至关重要。

常用场景

经典使用场景

Mantis-Instruct数据集作为全面融合文本与图像的指令调优数据集，其经典使用场景在于训练多模态模型以理解并执行涉及多图像技能的复杂指令，如指代消解、推理、比较、时间理解等。该数据集使得模型能够处理诸如在多图像环境中识别对象、理解图像内容与文本描述之间的关系，并在复杂任务中作出决策。

解决学术问题

该数据集解决了多模态学习中的关键问题，即如何有效融合视觉与文本信息以提升模型的指令遵循能力。通过包含14个子集，覆盖了多种图像技能，Mantis-Instruct为学术研究提供了丰富的实验材料，有助于推动多模态理解、推理和执行指令的研究进展。

实际应用

在实际应用中，Mantis-Instruct可被用于开发能够处理复杂视觉任务的智能系统，例如在医疗图像分析、自动驾驶车辆的环境理解、智能家居的交互系统等领域，提高系统对图像和文本的综合理解能力。

数据集最近研究

最新研究方向

Mantis-Instruct作为一款全新的文本-图像交织的多模态指令微调数据集，已包含721K示例，涵盖14个子集，并包含多图像技能，如共指、推理、比较、时间理解等。该数据集已被用于训练Mantis模型家族。研究主要集中在如何通过这些多模态示例提高模型在处理复杂多图像任务时的性能，特别是在推理和比较技能方面。此外，该数据集的构建也推动了对于如何有效整合大型语言模型和视觉模型的研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

BrowseComp-ZH

BrowseComp-ZH 是一个为全面评估大型语言模型（LLM）在中国网络上的浏览能力而设计的基准数据集。该数据集由289个多跳问题组成，涵盖了11个不同的领域，每个问题都经过逆向工程，从一个简短、客观且易于验证的答案（如日期、数字或专有名词）出发。为了确保问题的难度和答案的唯一性，采用了两阶段的质量控制协议。数据集旨在评估LLM在多跳检索、事实推理和在线信息整合方面的能力。数据集、构建指南和基准结果已公开发布。

arXiv 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

BBGRE

The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.

国家生物信息中心收录