Multimodal IFT and Pre-Train Dataset

github2024-05-17 更新2024-06-07 收录

下载链接：

https://github.com/SpursGoZmy/Table-LLaVA

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出了第一个用于表格理解的大规模多模态IFT和预训练数据集。

We present the first large-scale multimodal IFT and pre-training dataset for table understanding.

创建时间：

2024-05-17

原始信息汇总

数据集概述

数据集名称

MMTab

数据集目的

MMTab 是一个专为多模态表格理解问题设计的开源大规模数据集，旨在支持通用多模态大型语言模型（MLLMs）在多模态表格理解方面的训练和评估。

数据集构建

来源：基于14个公开的表格数据集，涵盖8个领域。
处理方式：通过精心设计的脚本将原始文本表格转换为强调广泛表格结构和风格的表格图像，并将所有特定任务样本转换为统一格式的多模态指令调整样本，格式为 <table image, input request, output response>。

数据集组成

MMTab-pre：包含97K表格图像，150K表格识别样本，用于预训练。
MMTab-instruct：包含82K表格图像，232K样本，涉及14个表格相关任务，用于指令调整。
MMTab-eval：包含23K表格图像，45K样本，用于17个内部基准和7个外部基准的评估。

数据集下载

数据集可从 Hugging Face Dataset 下载。

数据集示例

数据集示例展示了一个表格图像及其相关的输入请求和输出响应，更多示例可在原始论文的附录A中查看。

数据集贡献者

Mingyu Zheng
Xinwei Feng
Qingyi Si
Qiaoqiao She
Zheng Lin
Wenbin Jiang
Weiping Wang

引用信息

bibtex @misc{zheng2024multimodal, title={Multimodal Table Understanding}, author={Mingyu Zheng and Xinwei Feng and Qingyi Si and Qiaoqiao She and Zheng Lin and Wenbin Jiang and Weiping Wang}, year={2024}, eprint={2406.08100}, archivePrefix={arXiv}, } }

搜集汇总

数据集介绍

构建方式

MMTab数据集的构建基于14个公开可用的表格数据集，涵盖8个领域。通过精心设计的脚本，原始文本表格被转换为图像，以突出显示广泛的表格结构和样式。所有任务特定的样本被转换为多模态指令调优样本，采用统一的格式，即<table image, input request, output response>。数据集分为三个部分：MMTab-pre用于预训练，MMTab-instruct用于指令调优，MMTab-eval用于评估。在构建过程中，采用了多层次的数据增强（如表格级别和任务级别）以提高数据的多样性。

特点

MMTab数据集的特点在于其多模态性质，支持基于图像的表格理解和处理。数据集包含97K表格图像，覆盖广泛的表格结构和样式，适用于多种表格相关任务。此外，数据集通过多层次的数据增强，确保了数据的多样性和实用性，使其成为训练和评估多模态表格理解模型的理想选择。

使用方法

MMTab数据集可以通过Hugging Face平台下载，支持多种使用场景，包括预训练、指令调优和评估。用户可以通过提供的脚本进行数据预处理和模型训练。数据集的格式统一，便于集成到现有的多模态学习框架中。此外，数据集还提供了详细的评估脚本，帮助用户快速评估模型性能。

背景与挑战

背景概述

随着大规模语言模型（LLM）在表格理解领域的显著进展，如何直接利用视觉信息处理表格图像成为一个亟待解决的问题。传统的LLM方法依赖于将表格转换为文本序列，但在实际应用中，如扫描文档和网页截图等场景，高质量的文本表格表示往往难以获取。为此，研究团队提出了多模态表格理解问题，并构建了首个开源大规模数据集MMTab，旨在支持多模态表格理解模型的训练与评估。该数据集基于14个公开的表格数据集，涵盖8个领域，通过精心设计的脚本将原始文本表格转换为图像，并生成多模态指令调优样本。MMTab的构建不仅推动了表格理解技术的发展，还为多模态大语言模型（MLLM）的研究提供了新的方向。

当前挑战

MMTab数据集的构建面临多重挑战。首先，如何从不同领域的公开数据集中提取并转换为高质量的表格图像，确保数据多样性和覆盖广泛。其次，在多模态指令调优过程中，如何设计有效的数据增强策略，以提高模型的泛化能力。此外，表格图像的质量和分辨率对模型的性能有显著影响，尤其是在处理低质量或不完整的表格图像时。未来，研究还需进一步探索多语言、多表格场景以及更高分辨率的图像处理技术，以提升模型在实际应用中的表现。

常用场景

经典使用场景

Multimodal IFT and Pre-Train Dataset（MMTab）主要用于多模态表格理解任务，特别是在处理表格图像时，模型需要根据图像生成正确的响应。该数据集支持端到端的多模态表格理解，涵盖了从预训练到指令微调的完整流程。经典使用场景包括从扫描文档或网页截图中提取表格信息，并回答与表格内容相关的问题，如数据查询、统计分析等。

解决学术问题

MMTab数据集解决了多模态表格理解中的关键学术问题，特别是在处理非结构化表格图像时，如何通过视觉信息直接理解表格内容。该数据集为多模态大语言模型（MLLMs）的训练和评估提供了丰富的资源，推动了表格理解领域的研究进展。通过该数据集，研究者能够开发出更强大的表格理解模型，提升模型在复杂表格任务中的表现。

衍生相关工作

基于MMTab数据集，研究者开发了Table-LLaVA模型，该模型在多模态表格理解任务中表现优异，甚至在部分基准测试中与GPT-4V竞争。此外，该数据集还激发了多模态大语言模型在表格理解领域的进一步研究，如多语言表格处理、多表格场景下的任务处理等。未来，该数据集有望推动更多创新性工作的开展，特别是在实际应用场景中的表格数据处理和分析。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集