tldraw-datasets

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/steveruizoktldraw/tldraw-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自tldraw房间的快照历史记录，每一行代表一个编辑会话（即“轨迹”），以一系列定期的JSON快照和对应的PNG图像形式捕获。数据集结构清晰，每行包含三个主要列：filename（文件名）、jsonl（序列化结构体，包含初始快照和后续变更差异）和images（与jsonl一一对应的图像序列）。数据集适用于研究白板或画布应用的编辑行为、版本控制或用户交互模式。数据集规模较小（小于1K样本），每个样本包含多个快照和图像。使用MIT许可证。

创建时间：

2026-04-22

原始信息汇总

数据集概述

基本信息

数据集名称：tldraw snapshot history datasets
许可证：MIT
数据集大小：样本数小于1K
标签：tldraw、白板、画布、快照、图表、矢量图形

数据内容

该数据集来自tldraw白板应用的房间编辑历史。每一行代表一个房间的单一编辑会话（轨迹），捕获为周期性JSON快照序列及其对应的渲染PNG图像。

数据结构

每行包含三个字段：

字段名	类型	描述
`filename`	`string`	文件名，例如 `1dUMRx3oRxs33vPdsy2uY.jsonl`
`jsonl`	`Sequence[struct]`	编辑轨迹序列，第0行为初始完整快照，第1行起为变更差异
`images`	`Sequence[Image]`	与`jsonl`一一对应的PNG图像序列

jsonl字段结构

每个jsonl条目包含以下字段，其中快照特有字段和差异特有字段在另一种类型中为空：

字段	类型	说明
`kind`	`string`	类型：第0行为`"snapshot"`，后续为`"diff"`
`ts`	`string`	ISO时间戳（冒号替换为短横线，字典序即时间序）
`prev`	`string	null`
`clock`	`int64`	时钟值
`documentClock`	`int64`	文档时钟值
`tombstoneHistoryStartsAtClock`	`int64`	墓碑历史起始时钟
`schemaJson`	`string`	JSON编码的tldraw schema块
`documents` (快照特有)	`Sequence[string]`	JSON编码的`{state, lastChangedClock}`记录
`tombstones` (快照特有)	`Sequence[struct]`	`{id, clock}`结构的序列
`documentsAdded` (差异特有)	`Sequence[string]`	JSON编码的记录
`documentsModified` (差异特有)	`Sequence[string]`	JSON编码的记录
`documentsRemoved` (差异特有)	`Sequence[string]`	记录ID
`tombstonesAdded` (差异特有)	`Sequence[struct]`	`{id, clock}`结构的序列
`tombstonesRemoved` (差异特有)	`Sequence[string]`	记录ID

数据处理说明

无文档变更的行（空闲时段）会从jsonl和images中剔除，保留的每一帧对应一次实际编辑
documents和schema字段使用JSON字符串存储，因为tldraw形状类型具有多样化的模式，使用统一结构会导致parquet格式的schema组合爆炸

数据集划分

仅包含训练集（train）
训练集大小：271,866,378 字节
下载大小：542,341,375 字节
样本数：1

来源与工具

源代码和工具：https://github.com/tldraw/tldraw-datasets

搜集汇总

数据集介绍

构建方式

tldraw-datasets收录了来自tldraw在线白板协作空间的快照历史记录，每个房间的编辑会话被捕捉为一条包含周期性JSON快照及对应渲染PNG图像的数据轨迹。数据集以行为单位组织，每行代表一个独立的房间轨迹，包含三个核心列：文件名、JSON序列结构以及图像序列。在数据预处理过程中，针对未引发文档变更的空闲时段，系统会从JSON序列与图像序列中同步剔除，确保保留下来的每一帧都对应真实的用户编辑操作。

特点

该数据集的结构设计精巧而富有层次。每条轨迹的首项为完整的初始快照，后续条目则为基于变更的差分记录，这种设计极大地压缩了存储体积，同时保留了完整的状态回溯能力。尤为值得关注的是，由于tldraw中的形状类型（如地理图形、手绘、箭头、图像、嵌入等）拥有高度差异化的属性结构，为了避免Parquet格式下庞大的组合式Schema，所有文档记录均以JSON字符串形式存储，供用户按需反序列化恢复原始tldraw对象，这种灵活的编码策略在保持数据通用性与解析效率之间取得了优雅的平衡。

使用方法

借助HuggingFace Datasets库，用户可通过简单的两行代码加载数据：`load_dataset(‘steveruizoktldraw/tldraw-datasets’, split=‘train’)[0]`，即可获取首条轨迹的完整信息。针对每条轨迹，使用者可遍历`jsonl`字段中的差分序列，结合重建函数`reconstruct(jsonl, up_to)`，按顺序依次应用`documentsAdded`、`documentsModified`、`documentsRemoved`以及对应的墓碑记录变更，即可从初始快照出发，精确恢复出任意时间节点的完整`RoomSnapshot`状态，为白板交互行为分析、用户编辑模式挖掘以及基于历史数据的生成式方法研究提供了坚实的数据基础。

背景与挑战

背景概述

tldraw-datasets 是由 tldraw 团队于近期创建的一个专为白板画布应用设计的轨迹数据集，由主要研究人员通过从 tldraw 多用户房间中采集编辑会话快照而构建。该数据集旨在解决数字白板场景中交互轨迹捕获与状态重建的核心研究问题，每个样本记录了单一房间内从初始状态到最终状态的一系列定时 JSON 快照及其对应的渲染 PNG 图像。作为首个公开的大规模白板编辑轨迹数据集，它为智能白板系统、协作编辑分析和基于草图的生成模型提供了关键的基准资源，推动了向量图形交互领域的深度学习与序列建模研究。

当前挑战

该数据集面临的主要挑战在于：其一，白板编辑产生的用户行为具有高度多样性和非结构化特性，将离散的涂鸦、箭头、文字等形状组成连贯的编辑流并建模为可学习的序列数据是领域难题；其二，数据集构建过程中需处理形状类型的组合爆炸问题，不同形状（如几何、绘图、箭头、图片）拥有差异极大的模式，难以统一为固定的结构化格式，最终选择 JSON 字符串存储记录以规避分布式存储 Schema 限制；此外，采集时需去除空闲周期以保留有效编辑帧，并确保快照与差分状态的重建逻辑准确无误，这些都对数据清洗与验证提出了高要求。

常用场景

经典使用场景

tldraw-datasets的核心应用在于为数字白板与协作式绘图系统提供细粒度的编辑轨迹数据。该数据集以时间序列形式记录了每个画布房间的完整操作历史，从初始快照到逐次变更的差分数据，同时配合同步渲染的PNG图像，为研究交互式图形编辑的动态演化过程提供了前所未有的结构化语料。研究者可借助该数据集训练模型理解用户在白板上的创作逻辑、形状操作模式以及协作流程中的状态迁移规律，尤其适用于数字化设计工具领域中的实时协作建模与编辑预测研究。

解决学术问题

该数据集解决了数字协作绘图领域中缺乏高保真、长时序编辑轨迹的学术困境。传统数据集多聚焦于静态图像或孤立操作，难以捕捉编辑序列中的上下文依赖和意图演变。tldraw-datasets通过提供包含快照与差分交替出现的结构化序列，使得学术界得以探索用户操作模式的时序规律、图形状态的可逆性重建以及协作冲突检测等关键问题。其意义在于为白板系统的人机交互优化、智能辅助绘制功能开发以及协作算法评估提供了可靠的数据基准，推动了数字设计领域中计算行为学研究的深化。

衍生相关工作

tldraw-datasets的发布催生了一系列衍生研究，其中代表性的工作包括基于该数据集的编辑轨迹预测模型，利用时序差分信息学习用户操作习惯并预测后续动作。另一经典方向是将快照序列转化为向量图形生成任务，通过解析JSON结构中形状属性与空间关系，训练模型实现从草图到结构化图元的自动化转换。还有工作聚焦于协作冲突检测，利用数据集中具有时间戳的多用户操作记录，开发评估协作算法在网络延迟下性能的模拟框架。此外，该数据集的图像序列特性也被用于时序图形分割任务，推动白板内容理解与场景分析的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集