1,981 Vega-Lite Specifications

github2023-12-16 更新2024-05-31 收录

下载链接：

https://github.com/hyungkwonko/chart-llm

下载链接

链接失效反馈

官方服务：

资源简介：

我们展示了一个新的包含1,981个Vega-Lite规范的集合，用于展示我们的自然语言生成框架的通用性和可行性。这是迄今为止从GitHub获取的最大的人工生成图表集合。它涵盖了从简单的无交互线图到具有四个图表的数据点通过选择交互链接的图表的不同复杂度级别。我们专注于收集复杂图表，其中超过86%属于复杂和超复杂级别。与基准相比，我们的数据集显示了规范之间最高的平均成对编辑距离，证明图表之间高度多样化。此外，它包含了最多的具有复合视图、交互（如工具提示、平移和缩放、链接）和多样图表类型（如地图、网格和矩阵、图表等）的图表。

We present a new collection of 1,981 Vega-Lite specifications to demonstrate the versatility and feasibility of our natural language generation framework. This is the largest collection of human-generated charts obtained from GitHub to date. It covers a range of complexity levels, from simple non-interactive line charts to charts with four data points linked through selection interactions. We focus on collecting complex charts, with over 86% falling into the complex and highly complex categories. Compared to benchmarks, our dataset exhibits the highest average pairwise edit distance among specifications, indicating a high degree of diversity among the charts. Additionally, it includes the most charts with composite views, interactions (such as tooltips, pan and zoom, linking), and diverse chart types (such as maps, grids and matrices, and charts).

创建时间：

2023-06-23

原始信息汇总

数据集概述

数据集名称

Chart Dataset: 1,981 Vega-Lite Specifications

数据集描述

该数据集包含1,981个Vega-Lite规格的图表，是目前从GitHub收集的最大的人工生成图表集合。
图表复杂度从简单的无交互线图到具有四个图层且数据点通过选择交互链接的极其复杂的图表不等。
超过86%的图表属于复杂和极其复杂级别。
数据集展示了最高的平均成对编辑距离，证明图表之间的高度多样性。
包含大量具有复合视图、交互（如工具提示、平移&缩放、链接）和多样图表类型（如地图、网格&矩阵、图表等）的图表。

数据集用途

用于展示NL生成框架的通用性和可行性。

数据集加载

可通过Huggingface加载，使用以下代码： python import json from datasets import load_dataset

dataset = load_dataset("hyungkwonko/chart-llm", data_files="data.txt") json_data = [json.loads(data) for data in dataset["train"]["text"]] print(f"len(json_data): {len(json_data)}")

数据集元数据

包含图表的元数据，包括每个图表的许可证，详细信息可在此处查看：Google Sheets链接。

搜集汇总

数据集介绍

构建方式

1,981 Vega-Lite Specifications数据集的构建基于从GitHub收集的人类生成的图表规范，涵盖了从简单到高度复杂的多种图表类型。该数据集通过分析图表的语义（如标记、编码等）并结合自然语言生成框架，利用大语言模型（LLMs）进行数据增强。通过引导发现和基于评分的复述技术，框架能够自主生成多样化的自然语言数据集，确保语义准确性和句法多样性。

使用方法

数据集可通过Huggingface加载，用户可以使用提供的Python代码快速访问数据。此外，数据集支持自然语言生成任务，用户可通过OpenAI API生成不同级别的图表描述（L1和L2标题）、自然语言到图表的生成任务以及图表问答任务。复述功能允许用户基于定义的四个语言轴（清晰度、专业性、正式性、主观性）生成句法多样化的自然语言描述，并通过示例代码实现复述任务。

背景与挑战

背景概述

1,981 Vega-Lite Specifications数据集由Hyung-Kwon Ko等人于2023年创建，旨在支持自然语言生成框架的研究与应用。该数据集是目前从GitHub上收集的最大规模的人工生成图表集合，涵盖了从简单线性图到具有复杂交互的多视图图表的多种类型。数据集的核心研究问题在于如何通过Vega-Lite规范生成多样化的自然语言描述，以推动可视化与自然语言处理领域的交叉研究。该数据集不仅为研究人员提供了丰富的实验材料，还为开发基于大语言模型（LLMs）的图表语义解析与生成技术提供了重要支持。

当前挑战

1,981 Vega-Lite Specifications数据集在构建与应用过程中面临多重挑战。首先，数据集的多样性要求图表语义的准确解析与生成，这对自然语言生成模型的语义理解能力提出了较高要求。其次，数据集中包含大量复杂图表，这些图表通常涉及多视图、交互功能及复合图表类型，增加了语义提取与描述的难度。此外，数据集的构建过程中需要确保图表的多样性与代表性，以避免生成的自然语言描述过于单一或重复。最后，如何在保持语义一致性的同时，通过语言轴（如清晰度、专业性、正式度、主观性）实现句法多样性，也是该数据集应用中的一大挑战。

常用场景

经典使用场景

在数据可视化领域，1,981 Vega-Lite Specifications数据集被广泛用于生成自然语言描述，以增强图表语义的多样性和准确性。通过结合大型语言模型（LLMs）和两种新颖的提示技术，该数据集能够自动生成多样化的自然语言描述，涵盖从简单到复杂的图表类型。这种技术不仅提高了图表语义的解析能力，还通过评分基础的改写技术，增加了生成文本的句法多样性。

解决学术问题

该数据集解决了数据可视化领域中图表语义解析和自然语言生成的关键问题。通过提供大量复杂且多样化的Vega-Lite图表规范，研究人员可以更好地理解和生成与图表相关的自然语言描述。这不仅提升了图表语义的解析精度，还为自然语言生成模型的训练和评估提供了丰富的资源，推动了数据可视化和自然语言处理领域的交叉研究。

实际应用

1,981 Vega-Lite Specifications数据集在实际应用中，主要用于自动化生成图表描述、图表问答系统以及图表与自然语言之间的双向转换。例如，在数据新闻、商业智能和教育领域，该数据集可以帮助自动生成图表的详细描述，辅助用户理解复杂数据。此外，它还可以用于开发智能问答系统，帮助用户通过自然语言查询图表数据，提升数据交互的效率和用户体验。

数据集最近研究