Miroir-IME
收藏Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/nctahiti/Miroir-IME
下载链接
链接失效反馈官方服务:
资源简介:
Miroir-IME手写数据集是一个专门用于手写文字识别(HTR)训练的数据集,通过Boox Note Air 5C电子墨水设备上的Miroir IME系统采集。数据集包含6,892个样本,涵盖字母、单词和双字母组合的手写内容,所有样本均经过人工标注。数据格式为JSON文件,每个样本记录手写笔画的一系列点,每个点包含8个特征:归一化的X和Y坐标(以第一个点为原点)、相对于第一个点的时间增量(毫秒)、触控笔压力值(0-1)、触控笔倾斜角度(0-π/2)、方位角(-π到π)、XY平面距离以及悬停高度(0表示接触)。数据集还包含元数据字段:数据集ID(SHA-256哈希)、采集设备、标签来源(human表示人工标注)、是否经过人工校正以及笔画组的边界尺寸。数据已进行匿名化处理,包括坐标归一化、移除绝对时间戳和UUID,且不包含任何个人身份信息。该数据集适用于手写识别、数字墨水分析、笔迹分析等任务,采用ODbL(开放数据库许可证)分发,使用时需按要求署名。
The Miroir-IME Handwriting Dataset is a specialized dataset for Handwritten Text Recognition (HTR) training, collected via the Miroir IME system on Boox Note Air 5C e-ink devices. It contains 6,892 samples covering handwritten letters, words, and digraphs, all manually annotated. The data is in JSON format, with each sample recording a series of points for handwriting strokes; each point includes 8 features: normalized X and Y coordinates (with the first point as origin), time delta relative to the first point (in milliseconds), stylus pressure (0-1), stylus tilt angle (0-π/2), azimuth angle (-π to π), XY plane distance, and hover height (0 for contact). The dataset also includes metadata fields: dataset ID (SHA-256 hash), collection device, label source (human for manual annotation), whether it has been manually corrected, and bounding dimensions of stroke groups. The data has been anonymized through coordinate normalization, removal of absolute timestamps and UUIDs, and contains no personally identifiable information. It is suitable for tasks such as handwriting recognition, digital ink analysis, and handwriting analysis, and is distributed under the ODbL (Open Database License), requiring attribution upon use.
创建时间:
2026-06-30
原始信息汇总
数据集概述:Miroir-IME 手写数据集
- 数据集名称:Miroir-IME Handwriting Dataset
- 许可证:ODbL(开放数据库许可,需注明出处)
- 语言:法语
- 规模:样本数少于10,000
- 任务类别:其他(手写识别相关)
- 标签:handwriting、htr、stylus、e-ink、digital-ink
数据集内容与用途
- 该数据集是为手写识别(HTR)训练而收集的,数据通过 Miroir IME 在 Boox Note Air 5C 设备上采集。
- 数据文件为
data/svg_export.jsonl.gz,包含 6892 条记录,涵盖字母、单词和双字母组,所有标注均为人工手动完成。
数据格式
数据采用 parnasse-dataset.v1 格式,每个条目为一个 JSON 文件,包含以下特征:
- 空间与时间信息:
x(float):归一化后的 X 坐标(第一个点为0)y(float):归一化后的 Y 坐标(第一个点为0)t(int):自第一个点以来的时间差(毫秒)
- 笔触属性:
p(float):笔尖压力,范围 [0, 1]tilt(float):笔尖与垂直方向的夹角,范围 [0, π/2]orient(float):方位角,范围 [-π, π]dist(float):在 XY 平面上的移动距离(像素)z(float):悬停高度(0表示接触)
元数据字段
dataset_id:SHA-256 哈希值,用于完整性验证和匿名分类capture_source:捕捉设备信息model:标签来源(human表示人工标注)corrected:布尔值,表示标签是否经过人工修正bounds:笔画组的宽度和高度
隐私与匿名化
- 坐标已归一化(首个点归零)
- 无绝对时间戳和 UUID
- 不含任何个人元数据
搜集汇总
数据集介绍

构建方式
Miroir-IME数据集专为手写文本识别(HTR)任务而设计,通过专有的Miroir IME输入法在Boox Note Air 5C电子墨水设备上采集书写数据。每条样本以JSON格式存储,包含8个轨迹特征:归一化的XY坐标、相对于首点的时间增量、笔压(0-1)、笔倾斜角(0-π/2)、方位角(-π至π)、平面移动距离以及悬空高度(0表示接触)。数据经过严格匿名化处理,所有坐标以首点为原点归一化,仅保留相对时间戳,去除了UUID和个人元数据。数据集共包含6892条手动标注的样本,涵盖字母、单词和二元组,以压缩的JSONL形式存储于data/svg_export.jsonl.gz文件中。
特点
该数据集的核心特色在于其丰富的数字笔迹参数,除了基础的位置和时间信息外,还提供了笔压、倾斜角、方位角和悬空高度,能够全面捕捉书写过程中的笔触动态,适用于高精度的手写识别模型训练。数据集采用ODbL开放数据库许可,允许自由使用和分享,但需注明出处。构建中注重隐私保护,通过归一化坐标和消除绝对时间戳确保无法回溯至具体用户。每个样本均附有元数据,包括数据集的SHA-256哈希值、捕获设备信息、标签来源(人工标注或自动生成)以及是否经过人工修正,保证了数据的可追溯性和标注质量。
使用方法
使用Miroir-IME数据集时,需先解压data/svg_export.jsonl.gz文件,然后逐行读取JSON格式的样本。每行对应一条手写记录,其字典结构中包含'strokes'键,下辖多个轨迹点的特征数组(x, y, t, p, tilt, orient, dist, z),以及'dataset_id'、'capture_source'、'model'、'corrected'和'bounds'等元数据字段。开发者可根据任务需求,将轨迹序列直接输入至循环神经网络(RNN)或Transformer模型中,亦可提取笔压、角度等特征增强识别效果。建议在训练前对坐标进行缩放或对齐处理,并利用'corrected'字段筛选出人工验证的高质量样本以提升模型性能。
背景与挑战
背景概述
Miroir-IME手写数据集由研究团队基于Boox Note Air 5C设备上的Miroir IME输入法所采集,创建于手写文本识别(HTR)领域对多样化数字墨水数据需求日益增长的背景下。该数据集聚焦于法语手写识别,包含6892条由字母、单词及二元组构成的人工标注样本,旨在为触控笔与电子墨水设备上的手写识别算法提供高质量训练资源。研究人员在构建过程中强调数据匿名性,采用归一化坐标与增量时间戳策略,以确保隐私保护与模型泛化能力。Miroir-IME的发布为法语手写识别研究提供了精细化的时空压力特征数据,尤其对提升触摸屏与电磁笔设备上的识别精度具有重要意义。
当前挑战
当前手写识别领域面临的核心挑战在于如何从高维度的数字墨水流数据中有效建模书写动态。Miroir-IME数据集所解决的领域问题包括:第一,融合触觉轨迹中的压力、倾斜角与方位角等多模态特征,以突破静态图像识别方法的性能瓶颈;第二,应对电子墨水设备上因书写速度与习惯差异造成的笔迹形变。在数据集构建过程中,挑战主要体现为:第一,确保大量人工标注的准确性,需设计验证机制以修正误标样本;第二,在匿名化处理中,平衡隐私保护与特征完整性,避免因坐标归一化损失关键的空间相对信息。
常用场景
经典使用场景
在数字墨迹识别领域,Miroir-IME数据集专为手写文本识别(HTR)任务而设计,其经典使用场景聚焦于训练和评估基于触控笔或电磁笔输入的在线手写识别模型。数据采集自Boox Note Air 5C电子墨水设备,包含6892条手写样本,涵盖字母、单词和双字母组合,每条样本以JSON格式记录x/y坐标、时间戳、压力、倾斜角等8维笔迹特征,为构建端到端的手写字符与复杂笔迹结构识别系统提供了高保真的原始数据支撑。
实际应用
在实际应用中,Miroir-IME数据集直接服务于电子墨水设备上的智能手写输入法(IME)开发,例如在Boox系列平板中实现即时的手写转文本功能,提升无键盘场景下的中文与法语文本录入效率。此外,它还可应用于数字签名验证、个性化笔迹合成、教育领域的笔迹追踪与反馈系统,以及触控笔交互设计中的笔姿自适应优化,为消费电子与无障碍辅助技术提供了可复用的训练基准。
衍生相关工作
基于Miroir-IME数据集,研究者可衍生出多项经典工作:包括面向笔迹时空序列的Transformer或RNN架构对比实验、结合笔压与倾斜特征的多任务手写识别框架、以及基于笔迹几何信息的风格迁移与数据增强方法。该数据集也促进了跨设备域适应研究,例如将Boox e-ink数据迁移至iPad或Android触控笔场景,同时其ODbL开源许可鼓励社区构建联合标注的元数据集,进一步催生了手写特征标准化与笔迹预训练大模型等工作。
以上内容由遇见数据集搜集并总结生成



