MindBench

Name: MindBench
Creator: 美团北京
Published: 2024-07-03 14:39:18
License: 暂无描述

arXiv2024-07-03 更新2024-07-05 收录

下载链接：

https://miasanlei.github.io/MindBench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MindBench是由美团北京团队创建的一个综合性心智图结构识别和分析基准数据集。该数据集包含高分辨率的双语心智图图像，内容丰富且结构多样。数据集的创建过程包括解析真实心智图的源文件和自动合成模拟心智图。MindBench旨在推动结构化文档分析技术的研究和应用，特别是在文本识别、空间感知、关系辨别和结构化解析等领域。

MindBench is a comprehensive benchmark dataset for mind map structure recognition and analysis, created by the Meituan Beijing Team. This dataset contains high-resolution bilingual mind map images with rich content and diverse structures. The dataset construction process involves parsing source files of real mind maps and automatically synthesizing simulated mind maps. MindBench aims to promote the research and application of structured document analysis technologies, especially in the fields of text recognition, spatial perception, relationship discrimination and structured parsing.

提供机构：

美团北京

创建时间：

2024-07-03

原始信息汇总

MindBench 数据集概述

数据集描述

名称: MindBench
描述: 一个综合性的思维导图结构识别和分析基准。

关键词

LMMs
Robot Learning

其他信息

编码: UTF-8
视口: 宽度自适应，初始缩放比例为1.0

搜集汇总

数据集介绍

构建方式

MindBench数据集的构建过程分为数据生成和数据解析两个主要步骤。数据生成部分，首先从节点文本内容中随机采样，然后生成具有不同形状和结构的思维导图，并使用Graphviz工具将其渲染为图像。为了保证多样性，还引入了多种布局引擎和节点边属性，并在合成过程中随机放置背景图像和添加高斯噪声。数据解析部分，对爬取的原始文件进行解析，保留文本和结构信息，并将其转换为嵌套的JSON格式。同时，对合成数据进行直接转换，以保证与爬取数据的标注格式一致。

特点

MindBench数据集的特点主要体现在其全面性和多样性上。首先，它包含大量结构化文档图像，包括真实和合成的思维导图，并配有详细的标注和评估指标，为研究提供了标准化工具。其次，该数据集设计了五种结构化理解和解析任务，包括全解析、部分解析、位置相关解析、结构化视觉问答（VQA）和位置相关VQA，涵盖了文本识别、空间感知、关系辨识和结构解析等关键领域。此外，MindBench数据集还提供了丰富的评估指标，包括字段级F1分数和基于树编辑距离（TED）的准确率，以及针对VQA任务的F1分数。

使用方法

使用MindBench数据集的方法主要包括以下步骤：首先，根据需要选择合适的数据子集，例如全解析、部分解析、位置相关解析、结构化VQA或位置相关VQA。然后，将模型在数据集上进行训练，并使用提供的评估指标进行评估。在评估过程中，可以根据模型在各个任务上的表现来分析其优势和劣势，并进一步优化模型。此外，MindBench数据集还提供了丰富的示例和文档，方便用户了解和使用该数据集。

背景与挑战

背景概述

MindBench数据集的创建旨在应对当前视觉文档理解领域的一个关键问题：即现有基准通常仅关注提取文本和简单布局信息，而忽略了结构化文档（如图表和思维导图）中元素之间的复杂交互。MindBench数据集由美团北京团队的研究人员创建，包括Lei Chen、Feng Yan、Yujie Zhong、Shaoxiang Chen、Zequn Jie和Lin Ma等。该数据集的创建时间未在论文中明确提及，但根据论文的预印本日期，可以推断出其创建时间不晚于2024年7月。MindBench数据集的核心研究问题是评估和提升模型在处理结构化文档信息方面的能力，特别是在文本识别、空间感知、关系识别和结构解析等方面。该数据集的发布预计将对结构化文档分析技术的研究和应用开发产生重大影响。

当前挑战

MindBench数据集所面临的挑战主要包括：1)解决领域问题：尽管多模态大型语言模型（MLLM）在文档分析领域取得了显著进展，但现有基准主要关注文本和简单布局信息的提取，忽略了结构化文档中元素之间的复杂交互。2)构建过程中的挑战：MindBench数据集的构建过程中，研究人员面临着如何构建一个全面、实用且能够反映现实世界复杂性的基准的挑战。此外，高分辨率复杂图形图像的处理和长结构化文档信息的处理也是当前模型面临的主要挑战。

常用场景

经典使用场景

MindBench数据集被广泛应用于结构化文档分析领域，特别是在思维导图的结构识别与分析方面。该数据集不仅包含精心构建的双语真实或合成图像、详细的标注、评估指标和基线模型，还特别设计了五种结构化理解和解析任务，包括完整解析、部分解析、位置相关解析、结构化视觉问答（VQA）和位置相关VQA。这些任务涵盖了文本识别、空间感知、关系辨识和结构解析等关键领域。

衍生相关工作

MindBench数据集的发布激励了相关领域的研究，衍生出了一系列经典工作。这些工作主要集中在如何更好地理解和解析结构化文档，以及如何提升模型在处理高分辨率复杂图像和长时间结构化文档信息方面的能力。例如，一些研究尝试通过引入新的任务和数据增强方法来改进模型的表现，而另一些研究则关注如何更好地理解模型在处理结构化文档时的内部机制。

数据集最近研究