five

MMTBENCH

收藏
arXiv2025-05-28 更新2025-05-30 收录
下载链接:
https://huggingface.co/datasets/MMTBench/MMTBench
下载链接
链接失效反馈
官方服务:
资源简介:
MMTBENCH是一个用于复杂多模态表格推理的统一基准,包含500个来自现实世界的多模态表格,共计4021个问答对。该数据集涵盖了四种问题类型、五种推理类型和八种表格类型,旨在评估当前视觉-语言模型在处理多模态表格时的性能,并为未来研究提供挑战性、高质量的资源。

MMBench is a unified benchmark for complex multimodal tabular reasoning. It includes 500 real-world multimodal tables, totaling 4021 question-answer pairs. This dataset covers four question types, five reasoning types and eight table types. It aims to evaluate the performance of current vision-language models when handling multimodal tables, and provide challenging and high-quality resources for future research.
提供机构:
亚利桑那州立大学
创建时间:
2025-05-28
原始信息汇总

MMTBench数据集概述

数据集简介

  • 目的:评估真实世界多模态表格上的问答能力
  • 内容:包含结合图表、地图、旗帜和实体图像等多种视觉元素的真实表格
  • 许可:MIT开源许可证(仅限学术研究使用,禁止商业用途)

文件夹结构

  • All_Tables/
    • 格式:HTML/CSV
    • 数量:500个多模态表格
    • 包含:所有关联图像
  • Table_Images/
    • 内容:完整表格的渲染图像
    • 用途:基线评估
  • Questions/
    • 内容:4000+人工编写的问答对
    • 特点:覆盖多种推理类型
  • Question-Metadata/
    • 内容:每个问题的详细元数据
    • 包含:推理类型、问题类型、答案格式
  • Upper_Bound/
    • 内容:视觉元素被替换为对应文本的表格
    • 用途:上限基线

基线方法

  1. 下限基线(缺失图像)

    • 方法:仅使用去除图像的HTML/CSV文件
    • 目标:测试纯文本推理能力
  2. 上限基线(实体替换)

    • 方法:用黄金标准文本标签替换所有图像
    • 目标:评估理想推理条件
  3. 图像描述基线

    • 方法:通过模型生成描述将视觉内容转为文本
    • 实现:描述文本插入表格结构
  4. 表格图像基线

    • 方法:使用Table_Images中的渲染图像
    • 要求:模型需将整个表格作为视觉输入处理
  5. 交错基线

    • 方法:结合结构化HTML/CSV内容与嵌入式图像引用
    • 要求:视觉语言模型需联合解释文本和图像
搜集汇总
数据集介绍
main_image_url
构建方式
MMTBENCH数据集的构建采用了严格的双阶段流程,首先从Google Images、Wikipedia、Amazon等多样化公开来源收集500个真实世界的多模态表格,通过定制化Selenium脚本确保数据原始性,并辅以人工筛选剔除敏感内容。其次由NLP专家团队设计4,021个涵盖显式、隐式、答案提及和视觉推理四类问题,每个问题均经过双重校验流程以保证标注质量。数据集特别注重视觉多样性,平均每个表格包含23.67张图片,其中89.27%的行和28.42%的列嵌入了视觉元素,全面覆盖金融报表、地理信息等八大表格类型。
特点
作为首个支持交错式图文表格、图像渲染、层次化结构和真实多模态内容的数据集,MMTBENCH在4021个问题中系统化集成了数学运算、极值识别等五大推理类型,其特色在于:1) 100%真实场景数据源避免合成偏差;2) 视觉元素与表格结构的深度耦合,如图表与实体混合的复合型问题占比达36%;3) 答案类型覆盖单/多实体、数值及图像输出,其中视觉类问题准确率较文本类低42%,凸显多模态推理的挑战性。表格平均包含19.49行×10.85列的复杂结构,89%的行包含视觉标记,远超同类数据集MMTabQA的覆盖维度。
使用方法
该数据集支持五种基准评估范式:缺失图像基线测试纯文本推理能力,实体替换基线提供性能上限参考,图像描述基线考察视觉-文本转换效果,表格图像化基线评估整体视觉解析能力,交错式基线则要求模型同步处理嵌入式多模态信息。使用时应特别注意:1) 采用1-shot提示策略处理文本基线,0-shot策略处理视觉基线以平衡计算开销;2) 区分四类问题类型的评估指标,其中显式问题平均准确率比隐式问题高17%;3) 结合F1值与子串匹配率综合评判,因视觉答案常存在部分正确情况。官方提供标准化提示模板确保评估一致性,所有数据均托管于HuggingFace平台。
背景与挑战
背景概述
MMTBENCH是由亚利桑那州立大学的研究团队于2025年推出的多模态表格推理基准数据集,旨在解决当前视觉-语言模型在处理融合半结构化数据和视觉元素(如图表、地图等)的复杂多模态表格时所面临的挑战。该数据集包含500个真实场景中的多模态表格和4021个问答对,涵盖金融、电子商务、地理等多个领域。MMTBENCH的推出填补了多模态表格理解领域的空白,为相关研究提供了高质量的评估资源,推动了视觉-语言模型在复杂多模态推理任务中的发展。
当前挑战
MMTBENCH面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,多模态表格的理解需要模型同时处理文本和视觉信息,并进行复杂的跨模态推理,这对现有的视觉-语言模型提出了极高的要求。在构建过程中,研究人员需要从多样化的真实场景中收集高质量的表格数据,并设计涵盖不同类型和难度的问题,确保数据集的多样性和代表性。此外,人工标注过程中需要处理视觉和文本信息的复杂交互,保证问答对的准确性和合理性,这也是一个巨大的挑战。
常用场景
经典使用场景
在金融、电子商务和科学研究等领域,多模态表格因其结合了结构化数据和视觉元素(如图表、地图等)而广泛应用。MMTBENCH数据集通过提供真实世界的多模态表格及其对应的问题-答案对,成为评估视觉-语言模型(VLMs)在复杂多模态表格推理任务中性能的重要基准。其经典使用场景包括模型在金融报告中的预算与趋势分析、电子商务平台的产品规格与图像理解,以及科学文献中的数据与图表关联推理。
解决学术问题
MMTBENCH数据集解决了当前视觉-语言模型在多模态表格理解中的核心挑战,包括模型对结构化数据和视觉元素的联合推理能力不足、对复杂表格布局的理解有限,以及在多步推理和视觉基础问题上的性能瓶颈。通过涵盖四种问题类型(显式、隐式、答案提及和视觉基础)和五种推理类型(数学、极值识别、事实验证、视觉基础等),该数据集为学术界提供了系统评估模型能力的工具,并揭示了现有模型在真实场景中的局限性。
衍生相关工作
MMTBENCH的推出推动了多模态表格理解领域的相关研究,例如基于其构建的模型架构改进工作(如增强视觉-语言联合编码器)、针对特定推理类型(如数学或视觉基础问题)的专用算法,以及跨模态对齐技术的优化。此外,该数据集启发了对合成数据与真实数据差异的深入研究,并促进了如ChartQA、MMTabQA等基准的迭代,为更复杂的多模态推理任务设定了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作