ProvTales

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/ZtZheng/ProvTales

下载链接

链接失效反馈

官方服务：

资源简介：

ProvTales 是首个大规模用于将可视化探索历史（溯源图）转换为连贯数据叙事的基准数据集。该数据集包含 22,560 个溯源图与数据叙事对（11,280 个受限版本和 11,280 个非受限版本），这些数据对源自 16 个不同领域的 365 个真实世界表格数据集。数据集采用“叙事优先，图其次”的构建流程：首先通过主题规划、蓝图设计和利用大型语言模型（LLMs）进行数据事实实例化，从真实表格数据生成目标叙事；随后围绕这些叙事反向合成溯源图，通过引入模拟真实探索行为的辅助非叙事节点。数据集适用于溯源图关键叙事提取、数据叙事生成、视觉分析等任务。

创建时间：

2026-03-30

原始信息汇总

ProvTales 数据集概述

数据集基本信息

数据集名称：ProvTales
简介：首个用于将可视化探索历史（溯源图）转换为连贯数据叙事的大规模基准数据集。
数据量：包含 22,560 个溯源图-数据叙事对（11,280 个受限设置 + 11,280 个非受限设置）。
数据源：源自 16 个不同领域的 365 个真实世界表格数据集。
构建方法：遵循 叙事优先，图其次 的构建流程。首先通过主题规划、蓝图设计和利用大语言模型进行数据事实实例化，从真实表格数据生成目标叙事；随后围绕这些叙事，通过引入模拟真实探索行为的辅助非叙事节点，反向合成溯源图。
许可证：cc-by-4.0
语言：英语 (en)
规模类别：10K<n<100K

数据集结构

数据集仓库包含以下文件夹：

ProvTales/ ├── data/ # 源表格数据集 (CSV格式) ├── data_summary/ # 源表的模式概要和统计摘要 ├── topics/ # 主题规划输出（每个数据集的叙事主题） ├── storyline/ # 完整的叙事序列（有序的数据事实节点） ├── datafact/ # 实例化的数据事实节点及节点间的语义关系 └── graph/ # 溯源图（节点 + 边，包含受限和非受限设置）

关键组件说明

图表图像：在 graph/ 文件夹中，每个数据事实节点都渲染为符合 Vega-Lite 规范的 PNG 图表图像。由于文件大小和上传限制，渲染的 PNG 图表单独托管在 ModelScope — ProvTales_Chart。
溯源图设置：提供两种设置的溯源图：
- 非受限设置：graph/G
- 受限设置：graph/GT（共享相同的节点/边格式，但包含额外的意图信息）

构建流程示例

以示例数据集 cleaned_Chess games stats.csv（领域：体育）中的一个主题为例，展示从原始数据到溯源图的完整构建阶段。

1. 原始数据与模式概要

源数据文件：cleaned_Chess games stats.csv
数据摘要：包含文件基本信息、总行数（500行）及各列（如White Rating, Black Rating等）的数据类型、唯一值数量、样本和统计信息（最小值、最大值、标准差等）。

2. 叙事构建

阶段一：主题规划

为数据规划多个叙事主题。示例主题意图为探索玩家技能（白方和黑方评分）与走棋准确性（厘兵损失）之间的宏观相关性。

阶段二：蓝图规划

为每个主题设计叙事蓝图，包括选择叙事结构（如“因果线性”）、推理过程、叙事目标和详细的蓝图模板。蓝图模板描述了从介绍数据背景到得出最终结论的完整叙事流，并嵌入了数据事实图表的占位符。

阶段三：叙事实例化

将蓝图中的占位符实例化为具体的数据事实序列。每个数据事实定义了要绘制的图表类型（如散点图、条形图、弧图）、观察的属性、映射关系等。数据事实之间通过语义关系（如“时间顺序”、“并行探索”、“详细阐述”、“聚焦”、“编码切换”）链接，形成有序的叙事链。

3. 溯源图反向构建

基于实例化的数据事实叙事序列，反向合成包含数据事实节点和辅助非叙事节点的溯源图，以模拟真实的探索行为。

搜集汇总

数据集介绍

构建方式

在数据叙事与可视化分析领域，ProvTales数据集采用了一种创新的“叙事优先、图谱后构”的构建范式。该流程首先基于来自16个不同领域的365个真实世界表格数据集，利用大型语言模型进行主题规划、蓝图设计和数据事实实例化，生成结构化的目标叙事。随后，围绕这些叙事核心，通过引入模拟真实探索行为的辅助非叙事节点，反向合成出对应的溯源图谱，最终形成了包含22,560对图谱-叙事样本的大规模基准数据。

使用方法

该数据集主要服务于数据叙事提取、溯源图谱分析及图到序列生成等研究方向。使用者可通过其清晰定义的文件夹结构，便捷地访问原始表格数据、模式摘要、叙事蓝图、数据事实序列以及完整的溯源图谱。在进行模型训练或评估时，研究人员可依据任务需求，分别加载有约束或无约束版本的图谱数据，并利用配套的叙事文本与可视化图表，对模型理解数据探索逻辑与生成连贯叙述的能力进行系统性评测。

背景与挑战

背景概述

在数据可视化和叙事生成领域，将复杂的探索历史转化为连贯的数据故事是一项关键挑战。ProvTales数据集应运而生，作为首个大规模基准数据集，专注于从来源图中提取关键叙事。该数据集由相关研究团队构建，其核心研究问题在于如何将视觉探索历史（即来源图）有效转换为结构化的数据叙事，以支持数据故事讲述和可视化分析。它涵盖了来自16个不同领域的365个真实世界表格数据集，生成了22,560对来源图与数据叙事组合，为图到序列转换任务提供了重要资源，推动了数据叙事自动化与可视化分析技术的交叉发展。

当前挑战

ProvTales数据集旨在解决从来源图中提取关键叙事的领域挑战，这要求模型能够理解复杂的图结构并生成逻辑连贯的文本描述。构建过程中的挑战包括确保叙事质量与多样性，需通过主题规划、蓝图设计和数据事实实例化等步骤，利用大语言模型生成目标叙事，并反向合成来源图以模拟真实探索行为。同时，数据集需处理多领域表格数据的异构性，并管理大规模图表图像的存储与分发，以维持数据的完整性与可用性。

常用场景

经典使用场景

在数据可视化和叙事生成领域，ProvTales数据集为从来源图提取关键叙事提供了基准。其经典使用场景集中在训练和评估图到序列模型，将复杂的视觉探索历史转化为连贯的数据故事。通过涵盖十六个领域的真实表格数据，该数据集支持模型学习如何从包含辅助非叙事节点的来源图中识别并重构核心叙事线索，从而模拟真实的数据分析行为。

解决学术问题

ProvTales解决了数据叙事生成中缺乏大规模、高质量基准的学术挑战。传统方法难以将非结构化的探索过程转化为逻辑清晰的叙述，该数据集通过叙事优先、图反向合成的构建流程，为研究来源图压缩、语义关系提取以及多模态叙事生成提供了可靠基础。其意义在于推动了数据故事讲述的自动化研究，为可视分析领域的算法评估设立了新标准。

实际应用

在实际应用中，ProvTales可赋能智能数据报告系统和交互式分析工具。例如，在商业智能平台中，系统能自动将用户的图表探索历史总结为叙述性摘要，辅助决策者快速理解数据洞察。教育领域也能利用该数据集开发叙事生成教程，帮助学生从可视化操作中提炼关键结论，提升数据素养。

数据集最近研究