five

Online-Handwritten George Washington Dataset

收藏
github2022-06-16 更新2024-05-31 收录
下载链接:
https://github.com/cwiep/gw-online-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
在线手写版乔治华盛顿数据集,包含乔治华盛顿及其附属人员的手写信件扫描页。数据集特别包含了系列2,信件簿1,页码270-279和300-309的内容,常用于文字识别实验。每个子文件夹对应原数据集的20页,由单一作者编写,包含每个单词的在线轨迹文本文件。

The online handwritten George Washington dataset includes scanned pages of handwritten letters from George Washington and his associates. The dataset specifically contains content from Series 2, Letterbook 1, pages 270-279 and 300-309, commonly used for text recognition experiments. Each subfolder corresponds to 20 pages of the original dataset, authored by a single individual, and includes text files of online trajectories for each word.
创建时间:
2016-01-08
原始信息汇总

Online-Handwritten George Washington Dataset 概述

数据集描述

  • 名称: Online-Handwritten George Washington Dataset
  • 来源: 该数据集基于George Washington的原始手写信件,特别是Series 2, Letterbook 1, pages 270-279 和 300-309 的内容。
  • 目的: 创建一个在线手写版本的数据集,用于词检索实验。

数据格式

  • 结构: 数据集包含20个子文件夹,每个文件夹对应原始数据集的一页。
  • 内容: 每个子文件夹中包含一个文本文件,记录每个单词的在线轨迹。
  • 文件格式:
    • 每个文件的第一行是单词的字符串表示。
    • 其余行格式为 x y pen-state,其中:
      • xy 是点的坐标,原点位于左下角,y轴向上增长。
      • pen-state 表示笔是否在创建点后离开书写表面(0表示未离开,1表示离开)。

使用条款

  • 许可: 仅限于非商业研究及教育用途。
  • 引用: 使用时需引用以下文献:
    • Christian Wieprecht, Leonard Rothacker, Gernot A. Fink, "Word Spotting in Historical Document Collections with Online-Handwritten Queries", In Proc. IAPR Int. Workshop on Document Analysis Systems, Santorini, Greece, 2016.
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于乔治·华盛顿及其相关人员的书信手稿扫描件构建,特别选取了Series 2, Letterbook 1中的第270-279页和第300-309页作为数据源。由于缺乏在线手写版本的数据集,研究团队通过数字化处理,将每页内容转换为在线手写轨迹数据。每个单词的轨迹信息被记录为文本文件,文件首行为单词的字符串表示,后续行则包含点的坐标及笔的状态信息。
特点
该数据集包含20页手写内容的在线轨迹数据,每页由单一书写者完成。每个单词的轨迹以文本文件形式存储,文件格式清晰,包含点的坐标(x, y)及笔的状态(0表示笔未抬起,1表示笔抬起)。数据集特别适用于手写文字识别和单词定位研究,且提供了渲染工具render.py,便于用户可视化轨迹数据。
使用方法
用户可通过下载数据集并解压,访问每个页面对应的子文件夹,获取单词的轨迹文本文件。使用render.py工具,结合numpy和matplotlib库,可轻松渲染轨迹数据并进行分析。数据集仅限非商业研究和教育用途,使用时需引用相关论文以符合学术规范。
背景与挑战
背景概述
Online-Handwritten George Washington Dataset 是一个基于乔治·华盛顿及其相关人士手写信件的在线手写数据集。该数据集由Christian Wieprecht、Leonard Rothacker和Gernot A. Fink等研究人员于2016年创建,旨在为历史文档分析领域提供在线手写轨迹数据。数据集的核心研究问题集中在历史文档中的单词定位(word spotting)任务上,特别是通过在线手写查询来识别和匹配历史文档中的特定单词。该数据集在文档分析系统领域具有重要影响力,尤其是在手写识别和历史文档处理方面,为研究者提供了宝贵的实验数据。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,历史文档的单词定位任务本身具有较高的复杂性,由于手写风格的多样性和历史文档的退化,准确识别和匹配单词的难度较大。其次,在数据集构建过程中,研究人员需要将原始的扫描页面转换为在线手写轨迹数据,这一过程涉及复杂的数据采集和标注工作,尤其是如何准确捕捉手写轨迹的连续性和笔的状态变化。此外,数据集的构建还受到历史文档保存状态的影响,部分文档可能存在模糊或损坏,进一步增加了数据处理的难度。
常用场景
经典使用场景
Online-Handwritten George Washington Dataset 数据集在历史文档分析领域具有重要地位,尤其在单词定位(word spotting)实验中广泛应用。该数据集通过提供乔治·华盛顿及其相关人员的在线手写轨迹数据,为研究者提供了一个独特的实验平台。经典的使用场景包括基于在线手写轨迹的单词检索和识别,特别是在历史文档的数字化处理中,研究者可以通过该数据集验证和改进单词定位算法。
实际应用
在实际应用中,Online-Handwritten George Washington Dataset 数据集被广泛用于历史档案的数字化处理和检索系统开发。例如,图书馆和档案馆可以利用该数据集训练和优化手写识别模型,从而提高历史文档的检索效率。此外,该数据集还可用于教育领域,帮助学生和研究者更好地理解历史手写文档的特征和演变。
衍生相关工作
该数据集衍生了许多经典的研究工作,特别是在单词定位和手写识别领域。例如,Christian Wieprecht 等人在2016年发表的论文《Word Spotting in Historical Document Collections with Online-Handwritten Queries》中,利用该数据集验证了在线手写查询在历史文档检索中的有效性。此外,该数据集还激发了更多关于历史手写文档分析和数字化处理的研究,推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作