SimVec

Name: SimVec
Creator: 南洋理工大学
Published: 2025-07-01 18:11:25
License: 暂无描述

arXiv2025-07-01 更新2025-07-03 收录

下载链接：

https://github.com/VIDA-Lab/MLLM4VIS

下载链接

链接失效反馈

官方服务：

资源简介：

SimVec数据集由南洋理工大学等研究机构创建，旨在解决多模态大语言模型在可视化理解和重建方面的不足。数据集包含2999张图表的位图图像、相应的SimVec表示以及数据为中心的问题-答案对。SimVec格式是一种紧凑且结构化的向量格式，用于编码图表元素，包括标记类型、位置和大小。数据集的设计考虑了多样化的可视化类型、准确的数据特征、中间推理步骤和对不完美视觉输入的鲁棒性。该数据集旨在帮助模型更好地理解图表，并提高数据为中心的问答任务的准确性。

The SimVec dataset was created by research institutions including Nanyang Technological University, with the goal of addressing the limitations of multimodal large language models in visual understanding and reconstruction. The dataset includes 2999 bitmap images of charts, corresponding SimVec representations, and data-centric question-answer pairs. The SimVec format is a compact and structured vector format used to encode chart elements, including marker types, positions and sizes. The dataset is designed with considerations of diverse visualization types, accurate data features, intermediate reasoning steps, and robustness against imperfect visual inputs. This dataset aims to help models better understand charts and improve the accuracy of data-centric question answering tasks.

提供机构：

南洋理工大学

创建时间：

2025-06-26

原始信息汇总

数据集概述

数据集基本信息

数据集名称：VisNLModel
数据集用途：用于训练和微调多模态大型语言模型（MLLM）如MiniCPM-V和Qwen-VL
数据集来源：Hugging Face (https://huggingface.co/datasets/clda/VisNLModel)

数据集内容

数据类型：视觉-语言多模态数据
数据格式：JSON
数据示例：
- 包含图像路径和对话式问答对
- 问答对涉及图表理解和描述任务

任务类型

DataFeat Tasks
- 特点：包含中间推理过程（CoT）
- 示例任务：
  - 图表数值查询（如"CO2 emissions for Waste Management"）
  - 索引识别（如"Gender Equality Index of Canada"）
SimVec Tasks
- 特点：图表编码描述
- 示例任务：
  - 图表编码描述（如"Describe the encoding of the chart"）
  - 简单向量格式描述（如"what is the simple vector format of the chart?"）

模型训练支持

支持模型：
- MiniCPM-V
- Qwen-VL
训练数据准备：
- 提供prepare_sft_data.py脚本
- 不同模型使用略微不同的数据格式

评估与推理

推理脚本：
- inference_with_MiniCPM.py
- inference_with_Qwen.py
- inference_with_GPT4o.py（与GPT-4对比）
结果输出：results.csv

搜集汇总

数据集介绍

构建方式

SimVec数据集的构建过程体现了多模态数据处理的创新思路。研究团队采用分层递进的方法，首先通过大型语言模型生成具有语义关联的数据属性对，随后基于这些属性合成随机数据，并使用预设模板转换为矢量图表。为增强数据多样性，团队还模拟了历史图表的纹理特征和手绘风格。每个数据样本包含三个关键组成部分：位图形式的图表图像、结构化的SimVec向量表示以及带有推理链说明的问答对，这种三元组结构为模型提供了全面的监督信号。

使用方法

SimVec数据集支持端到端的可视化理解与重建任务。使用时可将位图图像输入经过微调的多模态大语言模型，模型会同步输出SimVec向量表示和自然语言回答。对于图表重建任务，可直接解析模型输出的SimVec向量并渲染成图；对于数据问答任务，则利用模型生成的推理链验证答案的可靠性。实验表明，结合SimVec和思维链微调的MiniCPM模型在数值提取任务中准确率提升至53.84%，较零样本基线提高42个百分点，证实了该数据集在增强模型图表理解能力方面的有效性。

背景与挑战

背景概述

SimVec数据集由南洋理工大学、字节跳动、南京大学、清华大学和牛津大学的研究团队于2025年联合发布，旨在解决多模态大语言模型（MLLMs）在可视化理解与重构领域的核心瓶颈问题。该数据集创新性地提出了结构化向量格式SimVec，通过编码图表元素（如标记类型、位置、尺寸等）的几何与语义特征，为数据可视化分析提供了机器可读的抽象表示。研究团队构建了包含2999个图表的数据集，涵盖柱状图、折线图、面积图等主流可视化类型，每个样本均配有点阵图像、SimVec向量表示以及带有思维链解释的数据中心问答对。该工作发表于计算机人机交互领域顶级会议，推动了可视化分析与自然语言处理的交叉研究，为智能数据解读系统建立了新的基准范式。

当前挑战

SimVec数据集面临双重技术挑战：在领域问题层面，传统MLLMs难以解析数据到视觉属性的映射规则，无法从图表中精确提取结构化数据，尤其在处理历史文献中的手绘图表时，存在噪声干扰和布局非标准化问题；在构建过程层面，研究团队需解决矢量图表（如SVG）的结构复杂性难题，包括嵌套分组导致的表示异构性、同一视觉元素的多重编码方式以及冗余样式信息干扰。此外，确保问答对中数值推理的链式思维（CoT）逻辑准确性，以及模拟历史图表纹理、手绘字体等风格化要素的真实性，均为数据集构建的关键技术壁垒。

常用场景

经典使用场景

SimVec数据集在可视化理解与重构领域具有广泛应用，尤其在多模态大语言模型（MLLMs）的微调任务中表现突出。通过将图表图像与其对应的SimVec表示配对，该数据集为模型提供了结构化、机器可读的视觉元素编码，从而显著提升了模型在数据问答任务中的表现。经典使用场景包括从图表图像中提取精确数值、识别极值以及重构图表结构，这些任务在科学研究和商业分析中具有重要价值。

解决学术问题

SimVec数据集有效解决了多模态大语言模型在可视化理解中的核心挑战，即解码数据到视觉的映射关系并提取结构化信息。传统MLLMs在自然图像理解中表现优异，但在处理抽象数据可视化时往往无法推断编码规则。SimVec通过提供紧凑的向量化表示，使模型能够准确理解图表的视觉属性（如位置、大小、颜色），从而解决了数据问答任务中的精确值提取和推理问题，填补了可视化理解领域的学术空白。

实际应用

在实际应用中，SimVec数据集为自动化图表分析提供了强大支持。例如，在金融领域，模型可以快速从股票走势图中提取关键数据点；在医疗领域，能够准确解读临床试验结果的可视化图表。此外，该数据集对历史手绘图表的重构能力，为数字化档案管理和文化遗产保护提供了技术保障。其鲁棒性设计使得模型能够处理现实场景中的噪声图表，如扫描文档或低质量图像，具有广泛的实际应用潜力。

数据集最近研究