TIGER-Lab/Mantis-Instruct

Name: TIGER-Lab/Mantis-Instruct
Creator: TIGER-Lab
Published: 2024-12-25 01:43:11
License: 暂无描述

Hugging Face2024-12-25 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/TIGER-Lab/Mantis-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

Mantis-Instruct是一个完整的文本-图像交错的多模态指令调优数据集，包含来自14个子集的721K个示例，涵盖了包括共指、推理、比较、时间理解在内的多图像技能。该数据集已被用于训练Mantis模型系列。Mantis-Instruct总共包含721K个实例，由14个子集组成，涵盖了所有多图像技能。在14个子集中，有10个子集来自现有数据集，例如NLVR2、IconQA等用于推理技能；DreamSim、Birds-to-Words等用于比较技能；NExT-QA、STAR等用于时间理解技能。我们还额外整理了四个新数据集LLaVA-665k-multi、LRV-multi来涵盖共指技能，以及Contrast-Caption、Multi-VQA来拓宽推理技能，其中Multi-VQA是通过提示GPT-4生成的。

Mantis-Instruct is a fully text-image interleaved multimodal instruction tuning dataset, containing 721K examples from 14 subsets and covering multi-image skills including co-reference, reasoning, comparing, temporal understanding. It has been used to train Mantis Model families.

提供机构：

TIGER-Lab

原始信息汇总

数据集概述

数据集配置列表

配置名称	特征描述	分割信息	下载大小	数据集大小
birds-to-words	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 981828 bytes, 2649 examples<br>- val: 114375 bytes, 322 examples	2294357	1096203
chartqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 4748298 bytes, 28299 examples<br>- val: 320087 bytes, 1920 examples	2426916	5068385
coinstruct	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 197520925 bytes, 150918 examples	64198480	197520925
contrastive_caption	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 134399182 bytes, 35984 examples	64112628	134399182
docvqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 6597409 bytes, 39463 examples	2770464	6597409
dreamsim	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 6577989 bytes, 15941 examples<br>- val: 809546 bytes, 1958 examples	1051358	7387535
dvqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 239538206 bytes, 200000 examples	44772738	239538206
iconqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 20700263 bytes, 64462 examples	5304186	20700263
imagecode	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 19215257 bytes, 16594 examples	3033029	19215257
llava_665k_multi	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 607836814 bytes, 312611 examples	209201688	607836814
lrv_multi	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 72060224 bytes, 8453 examples	30088343	72060224
nextqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 7539318 bytes, 3870 examples	3445284	7539318
nlvr2	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 30889488 bytes, 86373 examples<br>- val: 2465147 bytes, 6982 examples	18014755	33354635
spot-the-diff	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 3779184 bytes, 8007 examples	1207995	3779184
star	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 8370531 bytes, 3032 examples	1890570	8370531
multi_vqa	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 24396128 bytes, 4993 examples	10885960	24396128
visual_story_telling	- id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string	- train: 18468574 bytes, 6661 examples	8019828	18468574

数据集加载方法

手动下载和处理图像： python import datasets dataset = datasets.load_dataset("TIGER-Lab/Mantis-Instruct", "multi_vqa")
自动下载和处理图像： python import datasets dataset = datasets.load_dataset("TIGER-Lab/Mantis-Instruct", "multi_vqa", revision="script")
加载所有子集： python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("TIGER-Lab/Mantis-Instruct", config_name)
自动下载所有子集： python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("TIGER-Lab/Mantis-Instruct", config_name, revision="script")

搜集汇总

数据集介绍

构建方式

Mantis-Instruct 数据集的构建采用了完全文本图像交错的多模态指令微调方式，从14个子集中汇集了721K个示例，涵盖了包括共指、推理、比较、时间理解等多图像技能。该数据集整合了现有数据集的部分子集，如NLVR2、IconQA等用于推理技能；DreamSim、Birds-to-Words等用于比较技能；NExT-QA、STAR等用于时间理解技能。同时，还额外策划了四个新数据集，如LLaVA-665k-multi、LRV-multi以覆盖共指技能，以及Contrast-Caption、Multi-VQA以拓宽推理技能，其中Multi-VQA是通过提示GPT-4生成的。

使用方法

使用Mantis-Instruct数据集时，用户可以根据需要加载整个数据集或其子集。若需手动下载并处理图像，用户需从数据集的修订分支中获取图像压缩包，并在本地设置有效路径。若选择自动下载和处理图像，需确保使用datasets库的2.18.0版本。此外，用户还可以通过加载所有子集来获取更全面的数据覆盖，以进行深入的多模态研究。

背景与挑战

背景概述

Mantis-Instruct数据集，由TIGER-Lab团队创建，是一个全新的文本-图像交织的多模态指令微调数据集。该数据集包含721K个示例，涵盖14个子集，包括指代、推理、比较、时间理解等多图像技能。Mantis-Instruct的构建旨在训练Mantis模型家族，并已被广泛应用于多模态指令学习的相关研究中。该数据集的创建时间为2024年，主要研究人员包括Dongfu Jiang、Xuan He、Huaye Zeng等，所属机构为TIGER-Lab。Mantis-Instruct对相关领域的影响力体现在其全面覆盖多图像技能的子集，为多模态学习提供了丰富的资源和基准。

当前挑战

Mantis-Instruct数据集在构建过程中面临的挑战主要包括：1)如何确保数据集中的图像和文本能够准确对应，以利于模型的指令理解；2)如何处理和平衡不同技能子集之间的数据分布，以保证模型能够在各种技能上都有良好的学习效果；3)在多模态数据集构建中，如何有效处理和利用大规模图像数据，保证数据质量和训练效率。这些挑战对于提升数据集的质量和微调模型的性能至关重要。

常用场景

经典使用场景

Mantis-Instruct数据集作为全面融合文本与图像的指令调优数据集，其经典使用场景在于训练多模态模型以理解并执行涉及多图像技能的复杂指令，如指代消解、推理、比较、时间理解等。该数据集使得模型能够处理诸如在多图像环境中识别对象、理解图像内容与文本描述之间的关系，并在复杂任务中作出决策。

解决学术问题

该数据集解决了多模态学习中的关键问题，即如何有效融合视觉与文本信息以提升模型的指令遵循能力。通过包含14个子集，覆盖了多种图像技能，Mantis-Instruct为学术研究提供了丰富的实验材料，有助于推动多模态理解、推理和执行指令的研究进展。

实际应用

在实际应用中，Mantis-Instruct可被用于开发能够处理复杂视觉任务的智能系统，例如在医疗图像分析、自动驾驶车辆的环境理解、智能家居的交互系统等领域，提高系统对图像和文本的综合理解能力。

数据集最近研究