VisText

arXiv2023-06-28 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2307.05356v1

下载链接

链接失效反馈

官方服务：

资源简介：

VisText是一个包含12,441对图表和描述的数据集，用于描述图表的构建、报告关键统计数据，并识别感知和认知现象。数据集中的图表有三种表示形式：栅格化图像、底层数据表和场景图。

VisText is a dataset consisting of 12,441 pairs of charts and their corresponding descriptions. It is designed for describing chart construction, reporting key statistical data, and identifying perceptual and cognitive phenomena. Charts in this dataset have three representation formats: rasterized images, underlying data tables, and scene graphs.

创建时间：

2023-06-28

搜集汇总

数据集介绍

构建方式

在数据可视化与自然语言处理交叉领域，VisText数据集的构建体现了对语义丰富图表描述的深度探索。该数据集通过整合来自Statista的真实世界数据表，并利用Vega-Lite可视化库生成多样化的单变量图表，涵盖条形图、折线图和面积图。每个图表以三种形式呈现：栅格化图像、数据表和场景图，其中场景图作为层次化表示，类似于网页文档对象模型，能够编码视觉元素的语义角色与空间关系。描述生成采用混合策略：L1级别描述通过模板随机化算法合成，详细说明图表构造要素；L2和L3级别描述则通过众包协议收集，聚焦于统计特征与感知认知现象的阐述。最终数据集包含12,441对图表与描述，经过严格的质量控制与语义标注，确保了内容的多样性与准确性。

特点

VisText数据集的显著特征在于其多模态表示与语义层次的精细划分。图表以图像、数据表和场景图三重形式共存，其中场景图作为新颖的中间表示，既保留了视觉感知特征，又提供了结构化的语义信息，弥补了传统方法在图表语义提取上的不足。描述内容依据Lundgard和Satyanarayan的框架分为三个层级：L1描述图表构造，L2报告统计摘要，L3阐释趋势与模式等认知现象。数据集中L2/L3描述占比高达95%，且L3内容比例显著，这为训练模型生成语义丰富的描述提供了坚实基础。此外，数据集涵盖真实世界主题，视觉样式多样，并通过随机化处理增强了泛化能力，使其成为评估图表描述生成模型的理想基准。

使用方法

VisText数据集的使用方法主要围绕图表描述生成任务的模型训练与评估展开。研究者可利用其多模态表示训练文本翻译模型，例如基于场景图或数据表的ByT5微调，以探索不同表示对生成语义丰富描述的影响。图像引导的翻译模型可结合视觉特征与文本表示，开发多模态图表描述系统。语义前缀调优技术允许模型根据用户偏好输出不同语义层级的描述，实现描述内容的可定制化。评估时，除传统机器翻译与文本生成指标外，还需结合关系生成等任务特定指标，并对L2/L3描述进行定性错误分析，以全面衡量模型性能。数据集的标准划分避免了数据泄漏，支持训练、验证与测试的可靠实验设计。

背景与挑战

背景概述

在数据可视化与自然语言处理交叉领域，图表自动描述生成技术对于提升数据可访问性与理解深度具有关键意义。VisText数据集由麻省理工学院计算机科学与人工智能实验室的研究团队于2023年构建，旨在解决现有图表描述生成方法在语义丰富性方面的局限。该数据集包含12,441对图表与描述，涵盖条形图、折线图与面积图三种类型，并以栅格图像、数据表格和场景图三种形式呈现图表，从而为模型提供多模态输入。其核心研究问题聚焦于生成能够表达统计特征、感知现象与认知趋势的深层语义描述，以增强图表在无障碍访问与数据传播中的效用。VisText通过引入大规模众包标注的L2/L3层级描述，显著推动了语义丰富图表描述生成领域的发展，为后续研究提供了重要的基准资源。

当前挑战

VisText数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上，图表描述生成需克服从低级结构描述到高级语义解释的跨越，现有模型常难以准确捕捉复杂趋势、模式比较等认知特征，导致生成描述在身份识别、数值准确性、趋势方向与稳定性方面出现错误。构建过程中的挑战包括多模态数据对齐的复杂性，需协调图像、表格与场景图之间的信息一致性；众包标注质量控制亦为难点，需通过精细协议确保描述符合语义层级框架，同时避免背景知识引入与内容重复。此外，数据表示的多样性虽提升模型灵活性，但也增加了计算负担与序列截断风险，影响长文本与复杂图表的处理效果。

常用场景

经典使用场景

在数据可视化与自然语言处理交叉领域，VisText数据集为图表自动生成语义丰富的描述提供了基准。该数据集通过提供图表的三元表示——栅格化图像、数据表格和场景图，使得模型能够从多模态信息中学习生成涵盖图表结构、统计特征及感知认知现象的综合性描述。其经典应用场景在于训练和评估大型语言模型，使其能够基于图表的不同表示形式，生成既包含基础构造信息又揭示数据趋势与模式的自然语言描述。

解决学术问题

VisText数据集主要解决了图表自动描述研究中语义内容单一的问题。传统方法生成的描述往往局限于图表构造或简单统计摘要，缺乏对感知与认知特征（如复杂趋势和模式）的深入表达。该数据集通过提供多层次语义标注（L1构造描述、L2统计摘要、L3感知认知描述），使得模型能够学习生成语义更丰富的描述，从而推动图表描述生成技术向更高层次的语义理解发展，并促进数据可视化可访问性的学术探索。

衍生相关工作

VisText数据集衍生了一系列经典研究工作，特别是在基于场景图的图表描述生成和语义前缀调优方面。例如，研究人员利用该数据集训练了基于ByT5和VL-T5的文本与多模态模型，探索了场景图与数据表格在描述生成中的等效性。此外，语义前缀调优技术的应用使得模型能够根据用户偏好输出不同语义层次的描述，为个性化图表描述生成提供了新思路，并启发了后续关于复杂图表类型和多任务学习的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集