v2testing

Hugging Face2026-01-27 更新2026-01-28 收录

下载链接：

https://huggingface.co/datasets/finnbusse/v2testing

下载链接

链接失效反馈

官方服务：

资源简介：

v2testing 数据集包含使用触控笔（S Pen）在平板设备上收集的手写笔画数据，专为训练循环神经网络（RNN）进行手写生成/识别任务而优化。数据集以两种格式提供：Apache Parquet（列式存储，压缩）和 JSONL（行分隔 JSON 备份）。数据语言为德语。 Parquet 文件中的每一行代表一个完整的手写样本，包含以下字段：唯一标识符（UUID）、提示文本（text）、连续点之间的 X 偏移量（dx）、Y 偏移量（dy）、笔画结束标志（eos）、归一化比例因子（scale）、创建时间戳（created_at）和采集会话标识符（session_id）。JSONL 文件每行包含相同的训练数据，格式为包含 id、text、points（dx、dy、eos 数组）和可选 scale 字段的 JSON 对象。数据集适用于手写生成、手写识别等任务，并提供了在 HuggingFace 上使用 Parquet 格式的示例代码。数据采集使用了支持 Pointer Events API 的网页应用，捕获了触控笔输入（包括可用时的压力和倾斜数据）。

The v2testing dataset contains handwritten stroke data collected on tablet devices with an S Pen, specifically optimized for training recurrent neural networks (RNNs) on handwritten generation and recognition tasks. The dataset is provided in two formats: Apache Parquet (columnar compressed storage) and JSONL (line-separated JSON backup). The data is in German. Each row in the Parquet file represents a complete handwritten sample, containing the following fields: unique identifier (UUID), prompt text (text), X offsets between consecutive points (dx), Y offsets (dy), stroke end flag (eos), normalized scale factor (scale), creation timestamp (created_at), and collection session identifier (session_id). Each line in the JSONL file holds the same training data, formatted as a JSON object with fields id, text, points (an array of dx, dy and eos) and an optional scale field. This dataset is applicable to tasks including handwritten generation and handwritten recognition, and sample code for using the Parquet format on HuggingFace is provided. The data was collected via a web application supporting the Pointer Events API, capturing stylus input including pressure and tilt data when available.

创建时间：

2026-01-22

原始信息汇总

v2testing数据集概述

数据集基本信息

名称：v2testing
许可证：MIT
任务类别：文本生成
语言：德语
标签：手写、笔画数据、RNN训练、触控笔、S Pen、Parquet、JSONL
规模类别：n<1K
配置：默认配置，数据文件位于data/*.parquet，划分类型为训练集

数据集描述

模式版本：1.0.0
格式：Apache Parquet（列式存储，压缩） + JSONL备份
内容：包含使用触控笔（S Pen）在平板设备上收集的手写笔画数据，专为手写生成/识别任务的RNN训练优化。

数据格式

数据在data/目录下以两种格式提供：

Parquet文件：列式格式，针对HuggingFace数据集优化。
JSONL文件：行分隔的JSON备份，易于解析。两种格式包含相同的RNN训练数据，具有相同的批次ID。

Parquet模式

Parquet文件中的每一行代表一个完整的手写样本：

列名	类型	描述
`id`	字符串	唯一标识符（UUID）
`text`	字符串	书写的提示文本
`dx`	列表<double>	连续点之间的X方向偏移量
`dy`	列表<double>	连续点之间的Y方向偏移量
`eos`	列表<double>	笔画结束标志（1 = 提笔，0 = 继续）
`scale`	double	用于归一化的缩放因子
`created_at`	字符串	创建时间的ISO时间戳
`session_id`	字符串	收集会话标识符

JSONL格式

JSONL文件中的每一行是一个JSON对象，结构如下： json {"id": "uuid", "text": "prompt text", "points": [{"dx": 0, "dy": 0, "eos": 0}, ...], "scale": 1.0}

字段	类型	描述
`id`	字符串	唯一标识符（UUID）
`text`	字符串	书写的提示文本
`points`	数组	包含dx、dy、eos的点对象数组
`scale`	数字（可选）	用于归一化的缩放因子

RNN训练格式

笔画数据以RNN手写模型常用格式存储：

dx/dy：相对于前一点的位置偏移量（第一点的dx=dy=0）
eos：指示提笔的二进制标志（笔画结束）
数据通过边界框归一化以保持尺度一致

可视化

预览SVG文件位于renders_preview/目录，供HuggingFace数据集查看器使用。

使用方法

使用Parquet（推荐用于HuggingFace）

python from datasets import load_dataset

对于私有仓库，使用：load_dataset("finnbusse/v2testing", token="YOUR_HF_TOKEN")

dataset = load_dataset("finnbusse/v2testing")

访问样本

sample = dataset[train][0]

笔画数据已是原生Python列表（无需JSON解析）

dx = sample[dx] dy = sample[dy] eos = sample[eos]

重建绝对位置

x, y = 0, 0 positions = [] for dx_i, dy_i, eos_i in zip(dx, dy, eos): x += dx_i y += dy_i positions.append((x, y, eos_i))

使用JSONL（替代方案）

JSONL文件名遵循批次ID模式：YYYYMMDD_HHMMSS_XXXX.jsonl

python import json import glob

读取data目录中的所有JSONL文件

for jsonl_file in glob.glob(data/*.jsonl): with open(jsonl_file, r) as f: for line in f: sample = json.loads(line) points = sample[points] scale = sample.get(scale, 1.0) # scale是可选的 # 每个点包含：dx, dy, eos

收集方法

数据通过使用Pointer Events API的Web应用程序收集，捕获触控笔输入，包括可用时的压力和倾斜信息。

搜集汇总

数据集介绍

构建方式

在数字化手写识别领域，数据采集的精确性与规范性至关重要。v2testing数据集通过基于网络应用程序的指针事件API，系统性地捕获了使用触控笔在平板设备上输入的手写笔迹数据。该过程不仅记录了笔尖的坐标偏移量，还纳入了压力与倾斜角度等辅助信息，确保了数据的多维性与真实性。所有样本均经过边界框归一化处理，以维持尺度的一致性，并采用Apache Parquet与JSONL双重格式存储，兼顾了高效存取与易解析性。

特点

该数据集以德语手写笔迹为核心，专为循环神经网络训练而优化。其独特之处在于以笔画序列形式呈现数据，包含连续的坐标增量与笔划结束标志，直接契合手写生成与识别模型的输入需求。数据格式设计兼顾性能与灵活性，Parquet格式支持列式存储与压缩，适合大规模高效加载；JSONL格式则提供了易于人工读取的备份。此外，数据集附带了预览SVG图像，便于直观审视笔迹样本，增强了数据可解释性。

使用方法

利用该数据集进行模型训练时，推荐通过HuggingFace的datasets库直接加载Parquet格式文件，无需额外解析即可获取Python原生列表形式的笔画数据。用户可依据提供的代码示例，轻松重构笔迹的绝对坐标序列，进而输入至循环神经网络进行训练。对于偏好原始数据处理的场景，亦可直接读取JSONL文件，按行解析JSON对象。数据集支持按批次标识符访问，便于划分训练与验证集，为手写生成、识别及风格建模等任务提供了便捷的基础设施。

背景与挑战

背景概述

手写笔迹生成与识别是人工智能领域的重要研究方向，尤其在德语等特定语言环境下，高质量的数据集对于推动相关技术进步至关重要。v2testing数据集由研究人员Finn Busse于近期创建并发布在HuggingFace平台，其核心研究问题聚焦于利用循环神经网络（RNN）进行手写笔迹的生成与识别任务。该数据集通过平板设备与触控笔（S Pen）采集德语手写笔迹的笔画数据，以Apache Parquet和JSONL格式提供，优化了数据存储与访问效率。v2testing的出现为德语手写识别模型的训练提供了标准化资源，有望促进多语言手写处理技术的发展，并在教育、文档数字化等领域产生潜在影响。

当前挑战

在手写生成与识别领域，主要挑战在于准确建模笔迹的动态时序特征，包括笔画连续性、书写速度变化以及个人书写风格的多样性。v2testing数据集旨在解决这些挑战，但构建过程中仍面临诸多困难：数据采集需确保笔画坐标（dx/dy）与提笔标志（eos）的精确同步，以反映真实书写过程；德语的特殊字符与连笔习惯增加了数据标注与归一化的复杂度；此外，数据规模较小（n<1K）可能限制模型的泛化能力，而跨设备采集的笔迹一致性也难以保证。这些挑战共同构成了该数据集在推动手写人工智能应用中的关键瓶颈。

常用场景

经典使用场景

在数字笔迹处理领域，v2testing数据集以其精细的笔画轨迹数据，为手写生成与识别任务提供了关键支持。该数据集通过记录触控笔在平板设备上产生的连续位移和提笔动作，能够训练循环神经网络模型，模拟人类书写过程中的动态时序特征，从而在离线手写文本生成、个性化字体合成等场景中发挥核心作用。

衍生相关工作

围绕v2testing数据集，已衍生出多项经典研究工作，主要集中在基于RNN的手写生成模型优化、笔迹风格迁移算法的改进，以及多模态手写识别系统的构建。这些工作不仅深化了时序数据在生成式模型中的应用，也为后续更大规模多语言手写数据集的构建提供了重要的技术参考和范式借鉴。

数据集最近研究