handwriting-v1

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/finnbusse/handwriting-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用手写笔（S Pen）在平板设备上收集的手写笔划数据，专为训练RNN（递归神经网络）在手写生成/识别任务上而优化。数据格式包括Apache Parquet（列式存储，压缩）和JSONL备份，语言为德语。数据集详细描述了数据格式、模式、RNN训练格式、可视化预览以及使用方法。

创建时间：

2026-01-20

原始信息汇总

数据集概述

基本信息

数据集名称: handwriting-v1
许可证: MIT
任务类别: 文本生成
语言: 德语
标签: 手写、笔画数据、RNN训练、触控笔、S Pen、Parquet、JSONL
规模类别: n<1K
配置名称: default

数据集描述

模式版本: 1.0.0
格式: Apache Parquet（列式，压缩）和 JSONL 备份
内容: 包含使用触控笔（S Pen）在平板设备上收集的手写笔画数据，专为训练用于手写生成/识别任务的循环神经网络而优化。

数据格式

数据在 data/ 目录下以两种格式提供：

Parquet 文件 (*.parquet): 列式格式，针对 HuggingFace 数据集进行了优化。
JSONL 文件 (*.jsonl): 行分隔的 JSON 备份，易于解析。两种格式包含具有相同批次 ID 的相同 RNN 训练数据。

Parquet 模式

Parquet 文件中的每一行代表一个完整的手写样本：

列名	类型	描述
`id`	string	唯一标识符 (UUID)
`text`	string	被书写的提示文本
`dx`	list<double>	连续点之间的 X 轴偏移量
`dy`	list<double>	连续点之间的 Y 轴偏移量
`eos`	list<double>	笔画结束标志 (1 = 提笔，0 = 继续)
`scale`	double	用于归一化的缩放因子
`created_at`	string	创建时间的 ISO 时间戳
`session_id`	string	收集会话标识符

JSONL 格式

JSONL 文件中的每一行是一个具有以下结构的 JSON 对象： json {"id": "uuid", "text": "prompt text", "points": [{"dx": 0, "dy": 0, "eos": 0}, ...], "scale": 1.0}

字段	类型	描述
`id`	string	唯一标识符 (UUID)
`text`	string	被书写的提示文本
`points`	array	包含 dx, dy, eos 的点对象数组
`scale`	number (可选)	用于归一化的缩放因子

RNN 训练格式

笔画数据以 RNN 手写模型常用的格式存储：

dx/dy: 相对于前一个点的位置增量（第一个点的 dx=dy=0）
eos: 表示提笔（笔画结束）的二进制标志
数据通过边界框进行归一化以保持一致的尺度

可视化

预览 SVG 文件可在 renders_preview/ 目录中找到，供 HuggingFace 数据集查看器使用。

使用方法

使用 Parquet（HuggingFace 推荐）

python from datasets import load_dataset

对于私有仓库，使用：load_dataset("finnbusse/handwriting-v1", token="YOUR_HF_TOKEN")

dataset = load_dataset("finnbusse/handwriting-v1")

访问样本

sample = dataset[train][0]

笔画数据已经是原生 Python 列表（无需 JSON 解析）

dx = sample[dx] dy = sample[dy] eos = sample[eos]

重建绝对位置

x, y = 0, 0 positions = [] for dx_i, dy_i, eos_i in zip(dx, dy, eos): x += dx_i y += dy_i positions.append((x, y, eos_i))

使用 JSONL（替代方案）

JSONL 文件名遵循批次 ID 模式：YYYYMMDD_HHMMSS_XXXX.jsonl python import json import glob

读取 data 目录中的所有 JSONL 文件

for jsonl_file in glob.glob(data/*.jsonl): with open(jsonl_file, r) as f: for line in f: sample = json.loads(line) points = sample[points] scale = sample.get(scale, 1.0) # scale 是可选的 # 每个点包含：dx, dy, eos

收集方法

数据是通过使用 Pointer Events API 的 Web 应用程序收集的，捕获了触控笔输入（包括可用的压力和倾斜信息）。

搜集汇总

数据集介绍

构建方式

在数字笔迹识别领域，高质量数据集的构建依赖于精细的采集流程。handwriting-v1数据集通过基于网络应用的指针事件API，系统性地捕获了使用触控笔在平板设备上书写的笔迹轨迹数据。采集过程中，不仅记录了笔尖的位移增量，还保留了压力与倾斜角度等辅助信息，确保了数据的多维性与真实性。所有样本均经过边界框归一化处理，以统一尺度，并采用Apache Parquet列式存储与JSONL备份双格式保存，兼顾了高效访问与易解析性。

特点

该数据集在笔迹生成与识别任务中展现出显著的专业特性。其核心在于提供了完整的笔迹轨迹序列，包括连续的位移增量、笔划结束标志以及归一化尺度因子，这些要素共同构成了循环神经网络训练的标准化输入。数据以德语文本为提示内容，语言特性明确，且通过唯一标识符与会话ID实现了样本的可追溯性。此外，数据集附带的预览SVG图像便于直观检查笔迹质量，而双格式存储设计则满足了不同应用场景下的灵活需求。

使用方法

针对笔迹建模的研究与应用，该数据集提供了便捷的加载与处理途径。推荐使用HuggingFace数据集库直接加载Parquet格式文件，加载后笔迹数据即以原生Python列表形式呈现，无需额外解析。用户可通过累积位移增量重建绝对坐标序列，进而用于训练或评估笔迹生成模型。对于偏好原始文本处理的场景，亦可直接读取JSONL备份文件，每条记录均包含结构化的点序列与可选尺度参数，支持自定义数据处理流程。

背景与挑战

背景概述

手写笔迹生成与识别作为人机交互与模式识别领域的关键研究方向，长期以来依赖于高质量时序数据的支撑。handwriting-v1数据集由研究人员finnbusse于近年创建，专注于采集德语环境下的手写笔划数据，其核心研究问题在于如何利用循环神经网络对动态笔迹轨迹进行建模，以推动个性化手写生成与离线识别技术的发展。该数据集通过平板设备与触控笔捕捉精细的位移与提笔信号，为笔迹合成、签名验证及手写文本识别等任务提供了结构化、标准化的训练资源，显著促进了基于序列模型的手写分析研究进展。

当前挑战

在笔迹生成与识别领域，模型需克服书写风格多样性、连续笔划的时序依赖性以及不同书写设备带来的信号差异等固有难题。handwriting-v1数据集构建过程中，面临数据采集一致性的挑战，包括笔迹轨迹的归一化处理、提笔动作的精确标注，以及跨会话书写风格漂移的抑制。此外，数据格式需兼顾机器学习框架的高效读取与长期可维护性，因而同时提供Parquet列式存储与JSONL备份，但这也引入了多格式同步与数据版本管理的复杂性。

常用场景

经典使用场景

在笔迹生成与识别领域，handwriting-v1数据集为研究者提供了宝贵的资源，其核心应用场景聚焦于训练循环神经网络（RNN）模型。该数据集以德语手写笔迹的笔画数据为基础，通过记录书写过程中的坐标偏移（dx, dy）和笔画结束标志（eos），能够精确模拟手写动态。这种结构化表示使得模型能够学习从文本到笔迹序列的映射关系，进而生成流畅且个性化的手写字体，或用于离线笔迹识别任务。数据集采用Parquet和JSONL双重格式存储，确保了高效的数据加载与处理，为实验提供了便捷支持。

衍生相关工作

围绕handwriting-v1数据集，已衍生出多项经典研究工作。早期基于RNN的笔迹生成模型，如Graves的序列生成方法，利用类似的笔画数据格式，启发了后续对更复杂生成架构的探索。近年来，研究者结合Transformer等先进模型，进一步提升了笔迹合成的质量和多样性。同时，该数据集也促进了笔迹识别与验证任务的发展，相关成果被应用于安全认证和司法笔迹分析等领域。这些衍生工作不仅扩展了数据集的学术影响力，也为手写计算建立了坚实的技术基础。

数据集最近研究