Multimodal LLMs for Visualization Reconstruction and Understanding

Name: Multimodal LLMs for Visualization Reconstruction and Understanding
Creator: 南洋理工大学
Published: 2025-06-26 22:35:59
License: 暂无描述

arXiv2025-06-26 更新2025-06-28 收录

下载链接：

https://github.com/VIDA-Lab/MLLM4vis

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由南洋理工大学VIDA实验室创建，旨在帮助机器更好地理解和重建可视化信息。数据集包括2,999个可视化图像，涵盖条形图、折线图和面积图，每个图像都附有相应的编码信息和SimVec表示。SimVec是一种简化的向量格式，能够高效且一致地表示可视化内容。数据集还支持中间推理过程，有助于模型理解可视化图像中的数据。此外，数据集还包含手绘和纸张纹理的旧式可视化，以增强模型在实际场景中的应用能力。

提供机构：

南洋理工大学

创建时间：

2025-06-26

原始信息汇总

数据集概述：VisNLModel

数据集用途

用于训练MiniCPM-V和Qwen-VL两种视觉语言模型
支持两种任务类型：
- DataFeat Tasks：包含CoT（Chain-of-Thought）中间推理过程
- SimVec Tasks：图表编码描述任务

数据格式

MiniCPM-V训练数据格式

json { "id": "唯一标识符", "image": "图像路径", "conversations": [ { "role": "user", "content": "<image> 问题文本" }, { "role": "assistant", "content": "回答文本" } ] }

Qwen-VL训练数据格式

json { "id": "唯一标识符", "image": "图像路径", "conversations": [ { "from": "user", "value": "Picture 1: <img>图像路径</img> 问题文本" }, { "from": "assistant", "value": "回答文本" } ] }

数据示例

DataFeat Tasks示例

任务：从图表中提取具体数值
特点：包含像素到数值的映射计算过程
示例问题："What is the max value of CO2 emissions for Waste Management?"
示例回答：包含像素位置和数值映射关系的详细计算过程

SimVec Tasks示例

任务：图表编码描述
特点：提供图表的向量化表示
示例问题："Describe the encoding of the chart."
示例回答：包含坐标轴信息和图表元素的详细向量描述

训练与推理

训练脚本：
- MiniCPM-V：MiniCPM-V/finetune/finetune_lora.sh
推理脚本：
- MiniCPM-V：inference_with_MiniCPM.py
- Qwen-VL：inference_with_Qwen.py
- GPT-4对比：inference_with_GPT4o.py

评估与结果

结果文件：results.csv
评估过程可能需要后处理和人工检查

数据获取

下载地址：https://huggingface.co/datasets/clda/VisNLModel

搜集汇总

数据集介绍

构建方式

该数据集的构建始于元数据，从中生成数字格式图表并转化为旧式可视化形式，每张图表均附有编码信息和SimVec数据。为确保模型能精准解析图表，设计上考虑了四个关键要素：涵盖多样化的图表类型和数据属性、精确的数据特征提取、融入中间推理步骤以支持复杂解析，以及增强对非理想视觉输入的鲁棒性。特别地，通过模拟历史图表的纸张纹理、手写字体和手绘线条，数据集进一步扩展了对历史可视化材料的解析能力。

使用方法

数据集的使用需结合SimVec表示和CoT推理框架。首先，模型需将图表图像转换为SimVec格式，以捕获图表的结构化信息。随后，通过CoT框架逐步解析视觉编码规则，如坐标轴映射和数据标记关系，以支持精确的数据提取和图表重建任务。数据集特别适用于训练多模态大模型在数据可视化理解任务中的表现，包括图表问答、数据提取和分析推理等场景。

背景与挑战

背景概述

Multimodal LLMs for Visualization Reconstruction and Understanding数据集由Nanyang Technological University、ByteDance Inc.、Nanjing University、Tsinghua University和University of Oxford的研究团队于2025年联合发布，旨在解决多模态大语言模型在可视化理解领域的核心挑战。该数据集聚焦于图表图像与其向量化表示、编码方案及数据特征的关联，通过创新的SimVec（简化向量）格式和Chain-of-Thought（CoT）推理框架，显著提升了模型在数据提取和图表重建任务中的性能。作为首个整合结构化视觉编码与分步推理机制的数据集，它为可视化分析、自动问答等任务设立了新基准，推动了AI4VIS（人工智能辅助可视化）领域的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态模型难以解码数据-视觉映射规则的固有缺陷，例如从轴标记推断数值关系的空间推理能力不足；在构建过程中，需克服历史图表的手绘噪声、向量格式冗余（原始SVG标记长度超模型容量90%）、以及跨图表类型（柱状图/折线图/面积图）的标准化表示难题。实验表明，未经微调的GPT-4o在数值提取任务中误差率仍达57.31%，而手绘图表元素定位的平均像素偏差高达29.26，凸显了复杂视觉编码解析的艰巨性。

常用场景

经典使用场景

在数据可视化领域，Multimodal LLMs for Visualization Reconstruction and Understanding数据集为研究者提供了一个独特的平台，用于探索多模态大语言模型在图表理解与重建任务中的表现。该数据集通过结合图表图像及其对应的向量化表示、编码方案和数据特征，为模型训练和评估提供了丰富的素材。其经典使用场景包括图表问答、数据提取和分析推理等任务，特别是在需要精确解码视觉编码规则的应用中表现出色。

解决学术问题

该数据集有效解决了当前多模态大语言模型在可视化理解中的关键学术问题。传统模型在自然图像理解中表现优异，但在处理图表时往往无法准确解码数据到视觉的映射规则，导致结构化信息提取困难。通过引入简化的向量格式SimVec和链式思维推理框架CoT，该数据集显著提升了模型在数据提取精度和图表重建质量方面的表现，填补了可视化理解领域的空白。

实际应用

在实际应用中，该数据集支持多种现实场景的需求。例如，在处理历史文献或扫描文档中的图表时，原始数据往往不可获取，该数据集训练出的模型能够从视觉元素中准确重建数据。此外，在商业智能、学术研究等领域，自动化的图表理解和数据提取功能可以大幅提升工作效率，减少人工干预。数据集对噪声和非常规布局的鲁棒性也使其适用于更广泛的现实场景。

数据集最近研究