TIGER-Lab/Mantis-Instruct
收藏Hugging Face2024-12-25 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/Mantis-Instruct
下载链接
链接失效反馈官方服务:
资源简介:
Mantis-Instruct是一个完整的文本-图像交错的多模态指令调优数据集,包含来自14个子集的721K个示例,涵盖了包括共指、推理、比较、时间理解在内的多图像技能。该数据集已被用于训练Mantis模型系列。Mantis-Instruct总共包含721K个实例,由14个子集组成,涵盖了所有多图像技能。在14个子集中,有10个子集来自现有数据集,例如NLVR2、IconQA等用于推理技能;DreamSim、Birds-to-Words等用于比较技能;NExT-QA、STAR等用于时间理解技能。我们还额外整理了四个新数据集LLaVA-665k-multi、LRV-multi来涵盖共指技能,以及Contrast-Caption、Multi-VQA来拓宽推理技能,其中Multi-VQA是通过提示GPT-4生成的。
Mantis-Instruct is a fully text-image interleaved multimodal instruction tuning dataset, containing 721K examples from 14 subsets and covering multi-image skills including co-reference, reasoning, comparing, temporal understanding. It has been used to train Mantis Model families.
提供机构:
TIGER-Lab
原始信息汇总
数据集概述
数据集配置列表
| 配置名称 | 特征描述 | 分割信息 | 下载大小 | 数据集大小 |
|---|---|---|---|---|
| birds-to-words | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 981828 bytes, 2649 examples<br>- val: 114375 bytes, 322 examples | 2294357 | 1096203 |
| chartqa | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 4748298 bytes, 28299 examples<br>- val: 320087 bytes, 1920 examples | 2426916 | 5068385 |
| coinstruct | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 197520925 bytes, 150918 examples | 64198480 | 197520925 |
| contrastive_caption | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 134399182 bytes, 35984 examples | 64112628 | 134399182 |
| docvqa | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 6597409 bytes, 39463 examples | 2770464 | 6597409 |
| dreamsim | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 6577989 bytes, 15941 examples<br>- val: 809546 bytes, 1958 examples | 1051358 | 7387535 |
| dvqa | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 239538206 bytes, 200000 examples | 44772738 | 239538206 |
| iconqa | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 20700263 bytes, 64462 examples | 5304186 | 20700263 |
| imagecode | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 19215257 bytes, 16594 examples | 3033029 | 19215257 |
| llava_665k_multi | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 607836814 bytes, 312611 examples | 209201688 | 607836814 |
| lrv_multi | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 72060224 bytes, 8453 examples | 30088343 | 72060224 |
| nextqa | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 7539318 bytes, 3870 examples | 3445284 | 7539318 |
| nlvr2 | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 30889488 bytes, 86373 examples<br>- val: 2465147 bytes, 6982 examples | 18014755 | 33354635 |
| spot-the-diff | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 3779184 bytes, 8007 examples | 1207995 | 3779184 |
| star | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 8370531 bytes, 3032 examples | 1890570 | 8370531 |
| multi_vqa | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 24396128 bytes, 4993 examples | 10885960 | 24396128 |
| visual_story_telling | - id: string<br>- images: list<br> - bytes: binary<br> - path: string<br>- conversation: list<br> - role: string<br> - content: string<br>- source: string | - train: 18468574 bytes, 6661 examples | 8019828 | 18468574 |
数据集加载方法
-
手动下载和处理图像: python import datasets dataset = datasets.load_dataset("TIGER-Lab/Mantis-Instruct", "multi_vqa")
-
自动下载和处理图像: python import datasets dataset = datasets.load_dataset("TIGER-Lab/Mantis-Instruct", "multi_vqa", revision="script")
-
加载所有子集: python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("TIGER-Lab/Mantis-Instruct", config_name)
-
自动下载所有子集: python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("TIGER-Lab/Mantis-Instruct", config_name, revision="script")
搜集汇总
数据集介绍

构建方式
Mantis-Instruct 数据集的构建采用了完全文本图像交错的多模态指令微调方式,从14个子集中汇集了721K个示例,涵盖了包括共指、推理、比较、时间理解等多图像技能。该数据集整合了现有数据集的部分子集,如NLVR2、IconQA等用于推理技能;DreamSim、Birds-to-Words等用于比较技能;NExT-QA、STAR等用于时间理解技能。同时,还额外策划了四个新数据集,如LLaVA-665k-multi、LRV-multi以覆盖共指技能,以及Contrast-Caption、Multi-VQA以拓宽推理技能,其中Multi-VQA是通过提示GPT-4生成的。
使用方法
使用Mantis-Instruct数据集时,用户可以根据需要加载整个数据集或其子集。若需手动下载并处理图像,用户需从数据集的修订分支中获取图像压缩包,并在本地设置有效路径。若选择自动下载和处理图像,需确保使用datasets库的2.18.0版本。此外,用户还可以通过加载所有子集来获取更全面的数据覆盖,以进行深入的多模态研究。
背景与挑战
背景概述
Mantis-Instruct数据集,由TIGER-Lab团队创建,是一个全新的文本-图像交织的多模态指令微调数据集。该数据集包含721K个示例,涵盖14个子集,包括指代、推理、比较、时间理解等多图像技能。Mantis-Instruct的构建旨在训练Mantis模型家族,并已被广泛应用于多模态指令学习的相关研究中。该数据集的创建时间为2024年,主要研究人员包括Dongfu Jiang、Xuan He、Huaye Zeng等,所属机构为TIGER-Lab。Mantis-Instruct对相关领域的影响力体现在其全面覆盖多图像技能的子集,为多模态学习提供了丰富的资源和基准。
当前挑战
Mantis-Instruct数据集在构建过程中面临的挑战主要包括:1)如何确保数据集中的图像和文本能够准确对应,以利于模型的指令理解;2)如何处理和平衡不同技能子集之间的数据分布,以保证模型能够在各种技能上都有良好的学习效果;3)在多模态数据集构建中,如何有效处理和利用大规模图像数据,保证数据质量和训练效率。这些挑战对于提升数据集的质量和微调模型的性能至关重要。
常用场景
经典使用场景
Mantis-Instruct数据集作为全面融合文本与图像的指令调优数据集,其经典使用场景在于训练多模态模型以理解并执行涉及多图像技能的复杂指令,如指代消解、推理、比较、时间理解等。该数据集使得模型能够处理诸如在多图像环境中识别对象、理解图像内容与文本描述之间的关系,并在复杂任务中作出决策。
解决学术问题
该数据集解决了多模态学习中的关键问题,即如何有效融合视觉与文本信息以提升模型的指令遵循能力。通过包含14个子集,覆盖了多种图像技能,Mantis-Instruct为学术研究提供了丰富的实验材料,有助于推动多模态理解、推理和执行指令的研究进展。
实际应用
在实际应用中,Mantis-Instruct可被用于开发能够处理复杂视觉任务的智能系统,例如在医疗图像分析、自动驾驶车辆的环境理解、智能家居的交互系统等领域,提高系统对图像和文本的综合理解能力。
数据集最近研究
最新研究方向
Mantis-Instruct作为一款全新的文本-图像交织的多模态指令微调数据集,已包含721K示例,涵盖14个子集,并包含多图像技能,如共指、推理、比较、时间理解等。该数据集已被用于训练Mantis模型家族。研究主要集中在如何通过这些多模态示例提高模型在处理复杂多图像任务时的性能,特别是在推理和比较技能方面。此外,该数据集的构建也推动了对于如何有效整合大型语言模型和视觉模型的研究。
以上内容由遇见数据集搜集并总结生成



