AutoChart
收藏arXiv2021-08-16 更新2024-06-21 收录
下载链接:
https://gitlab.com/bottle_shop/snlg/chart/autochart
下载链接
链接失效反馈官方服务:
资源简介:
AutoChart是由新加坡科技与设计大学和萨斯喀彻温大学合作创建的大型数据集,专注于图表分析描述任务。该数据集包含10,232个图表及其相应的分析描述,旨在通过自动生成图表及其描述来促进图表描述研究。数据集内容丰富,涵盖多种图表类型和趋势,通过复杂的生成策略确保图表的多样性和分析描述的准确性。AutoChart的应用领域广泛,包括学术写作辅助、自动化新闻报道和提高图表的可访问性,特别是在帮助视觉障碍人士理解图表内容方面具有重要价值。
AutoChart is a large-scale dataset co-developed by the Singapore University of Technology and Design and the University of Saskatchewan, focusing on chart analysis and description tasks. This dataset comprises 10,232 charts paired with their corresponding analytical descriptions, aiming to advance research on chart description via the automatic generation of charts and their associated descriptions. The dataset boasts rich content, covering a wide variety of chart types and trends, and ensures the diversity of generated charts and the accuracy of their analytical descriptions through sophisticated generation strategies. AutoChart has broad application scenarios, including academic writing assistance, automated news reporting, and improving chart accessibility, with particularly important value in helping visually impaired individuals understand chart content.
提供机构:
新加坡科技与设计大学
创建时间:
2021-08-16
搜集汇总
数据集介绍

构建方式
在数据可视化与自然语言生成的交叉领域,AutoChart数据集通过自动化框架构建而成。该框架首先从世界银行开放数据等多源统计资料中采集指标变量与实体数据,并运用趋势生成策略对数据进行扰动,以模拟八种不同的时序模式。随后,利用Matplotlib库随机化颜色、标记样式等参数,生成了散点图、折线图及条形图等四类共计10,232张图表。每张图表的元数据(如坐标轴标签、数据点坐标等)均以JSON格式保存,为后续分析提供结构化信息。
特点
AutoChart数据集的核心特点在于其规模与质量的双重保障。该数据集包含23,543条图表描述文本,每条文本均基于修辞结构分析生成,确保了描述的逻辑性与连贯性。通过语言学专家撰写的模板结合自动复述技术,生成了涵盖五种修辞动作(如概述、趋势解读、数值报告等)的多样化句子库。评估表明,生成描述在信息量、自然度方面与人工撰写文本无显著差异,且特别强化了对图表趋势与统计特征的解析能力,为学术写作与可访问性应用提供了高质量语料。
使用方法
该数据集主要应用于图表到文本生成的模型训练与评估。研究人员可利用其提供的图表图像、元数据及对应描述文本,开发端到端的自然语言生成模型。数据集中包含的修辞动作标签可用于指导模型学习结构化描述的逻辑框架。此外,多描述版本的设计支持生成多样性研究,而保留的原始统计数据则便于进行图表理解任务的辅助验证。在具体应用中,可结合计算机视觉技术提取图表特征,并利用序列生成模型(如Transformer)实现自动化描述生成,推动教育辅助与无障碍技术等领域的发展。
背景与挑战
背景概述
在自然语言生成领域,数据到文本的转换一直是核心研究方向,尤其在图表分析描述方面具有重要的学术与商业应用价值。AutoChart数据集由新加坡科技设计大学、萨斯喀彻温大学及招商银行的研究团队于2021年联合创建,旨在解决图表到文本生成任务中高质量数据稀缺的问题。该数据集通过自动化框架生成包含散点图、折线图和条形图等多种图表及其对应的分析性文本描述,为计算语言学和自然语言处理研究提供了大规模、结构化的资源,推动了自动化图表分析、辅助写作及无障碍访问等应用的发展。
当前挑战
AutoChart数据集面临的挑战主要体现在两个方面:在领域问题层面,图表到文本生成任务需克服从视觉图表中提取复杂趋势、比较数据点并生成连贯分析性描述的难题,这要求模型不仅识别图表元素,还需理解数据间的逻辑关系以产生合乎语言学修辞的文本。在构建过程中,研究团队需应对自动化生成高质量描述的挑战,包括通过趋势生成策略确保图表多样性,利用修辞结构分析提升文本的逻辑性,并平衡模板生成与人工标注以保障数据集的真实性与有效性。
常用场景
经典使用场景
在自然语言生成领域,图表到文本的转换任务正逐渐成为研究热点。AutoChart数据集通过自动生成包含趋势变化的图表及其分析性描述,为这一任务提供了大规模、高质量的基准资源。该数据集最经典的使用场景在于支持监督式机器学习模型的训练与评估,特别是针对图表理解与文本生成的联合任务。研究人员可利用AutoChart构建端到端的神经网络模型,学习从图表视觉特征到连贯分析文本的映射关系,从而推动自动图表分析技术的发展。
衍生相关工作
AutoChart数据集的推出催生了一系列相关研究工作。例如,基于该数据集的监督学习模型被开发用于提升图表到文本生成的准确性与流畅性,部分研究聚焦于结合修辞结构的生成策略以增强文本的逻辑性。同时,该数据集也促进了多模态理解模型的演进,如将视觉特征提取与自然语言生成相结合的方法。这些衍生工作不仅拓展了图表分析的技术边界,还为图像描述、数据到文本生成等更广泛的自然语言生成任务提供了借鉴与启示。
数据集最近研究
最新研究方向
在数据到文本生成领域,AutoChart数据集的推出标志着图表分析描述任务进入了一个新的发展阶段。该数据集通过自动生成图表及其对应的分析性文本,为计算语言学和自然语言处理研究提供了大规模、高质量的基准资源。当前的前沿研究方向聚焦于结合深度学习与修辞结构分析,以提升生成文本的逻辑连贯性和分析深度,例如利用Transformer架构增强模型对图表趋势的语义理解能力。同时,该数据集正推动跨模态研究,如视觉问答与文本生成的融合,以支持学术写作辅助和可访问性应用等热点场景。这些进展不仅促进了自动化图表解读技术的成熟,也为教育技术和人机交互领域带来了深远影响。
相关研究论文
- 1AutoChart: A Dataset for Chart-to-Text Generation Task新加坡科技与设计大学 · 2021年
以上内容由遇见数据集搜集并总结生成



