SpursgoZmy/MMTab
收藏MMTab 数据集概述
数据集描述
MMTab 是一个大规模多模态指令调优数据集,旨在增强和评估多模态大型语言模型(LLMs)的视觉表格理解能力。该数据集要求模型根据表格图像和输入请求生成正确的响应。MMTab 包含多样化的表格图像和指令跟随数据,涵盖15种表格任务,例如表格问答、表格到文本转换、表格结构理解等。
MMTab 可以分为三个部分(MMTab-pre、MMTab-instruct、MMTab-eval),分别用于预训练、指令微调和评估。
数据集详情
| 分割 | 文件名 | 数据大小 | 描述 |
|---|---|---|---|
| MMTab-eval | MMTab-eval_table_images_23K.zip |
23K | 用于评估的23K表格图像 |
MMTab-eval_test_data_49K.json |
49K | 45K样本用于内部评估,4K样本用于外部评估 | |
| MMTab-instruct | MMTab-instruct_table_images_82K.zip |
82K | 用于指令微调的82K表格图像 |
MMTab-instruct_sft_data_llava_format_232K.json |
232K | 195K单轮和37K多轮指令微调样本,采用LLaVA对话格式 | |
enhanced_llava_sft_data_898k.json |
898K | 232K MMTab-instruct样本 + 665K原始LLaVA-1.5指令微调样本,用于微调Table-LLaVA | |
| MMTab-pre | MMTab-instruct_table_images_82K.zip |
82K | 这部分表格图像也用于预训练,即作为MMTab-pre_table_images_part_1_82K.zip |
MMTab-pre_table_images_part_2_16K.zip |
16K | 从ToTTo数据集额外收集的16K表格图像,用于预训练 | |
MMTab-pre_pretrain_data_llava_format_150K.json |
150K | 150K表格识别样本,用于预训练,采用LLaVA对话格式 | |
enhanced_llava_pretrain_data_708K.json |
708K | 150K MMTab-pre样本 + 558K原始LLaVA-1.5预训练样本,用于预训练Table-LLaVA |
数据集结构
指令微调和预训练样本遵循LLaVA的对话数据格式,如下所示:
Python {id: ToTTo_train_item_534, # 样本ID image: table_instructV/images/ToTTo_train_table_21297.jpg, # 对应的表格图像文件路径 conversations: [{from: human, # 发言来自人类还是模型 value: "Provide a single-sentence description for the highlighted table cells in a Wikipedia table labeled Chesney Hawkes along with its metadata. <image>"}, # 对话内容 {from: gpt, value: Chesney Hawkes released a single called "Another Fine Mess" in 2005 that reached number 48.}] }
数据集创建
为了支持多模态表格理解的多模态大型语言模型(MLLMs)的开发和评估,我们基于14个公开可用的8个领域的表格数据集构建了MMTab。我们精心设计脚本,将这些数据集中的原始文本表格转换为突出广泛表格结构和样式的表格图像,并将所有特定任务样本转换为具有统一格式的多模态指令微调样本<表格图像,输入请求,输出响应>。
预期用途
主要预期用途: MMTab 主要用于大型多模态模型和聊天机器人的研究。
主要预期用户: MMTab 的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
限制
首先,该数据集主要关注单个英语表格。多表格场景和更广泛的语言覆盖尚未考虑。其次,MMTab 基于精心选择的表格数据集中的真实世界表格,并包含由自动化脚本渲染的多样化高质量表格图像。然而,现实世界中的表格图像可能是低质量的,例如模糊、手写或不完整的表格图像。为了进一步缩小学术研究和实际应用场景之间的差距,未来可以收集更多样化的现实世界表格图像,并构建相应的指令跟随数据。




