five

READ 2016 (HTR Dataset ICFHR 2016)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/READ_2016
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自 READ 项目(Horizon 2020)。该数据集由来自 Ratsprotokolle 集合的文件子集组成,这些文件由 1470 年至 1805 年举行的理事会会议记录(约 30.000 页)组成,将用于 READ 项目。该数据集是用早期现代德语编写的。作家人数不详。这个集合中的笔迹非常复杂,足以挑战 HTR 软件。训练数据集由 400 页组成;大多数页面由单个块组成,线条检测和提取有很多困难。该集合中的基本事实采用 PAGE 格式,并在 PAGE 文件的行级别提供注释。之前的数据集与位于 https://zenodo.org/record/218236#.WnLhaCHhBGF 的数据集相同 新文件包括与在 ICFHR 2016 举行的 HTR 比赛对应的测试集, M., Vidal, E., & Sánchez, JA (2018)。 HTR 数据集 ICFHR 2016(版本 1.2.0)[数据集]。泽诺多。 http://doi.org/10.5281/zenodo.1297399

This dataset originates from the READ project (Horizon 2020). It comprises a subset of documents from the Ratsprotokolle collection, which consists of council meeting minutes held between 1470 and 1805 (approximately 30,000 pages) and is intended for use in the READ project. This dataset is written in Early Modern German, and the number of its authors remains unknown. The handwriting in this collection is highly complex, posing significant challenges to HTR software. The training dataset consists of 400 pages; most pages comprise a single text block, with considerable difficulties in line detection and extraction. The ground truth for this collection follows the PAGE format, with annotations provided at the line level within the PAGE files. The prior version of this dataset matches the one hosted at https://zenodo.org/record/218236#.WnLhaCHhBGF. The new files include the test set corresponding to the HTR competition held at ICFHR 2016, as cited in M., Vidal, E., & Sánchez, JA (2018): *HTR Dataset ICFHR 2016 (Version 1.2.0)* [Dataset]. Zenodo. http://doi.org/10.5281/zenodo.1297399
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
READ 2016数据集是一个历史手写文本识别数据集,包含1470-1805年的理事会会议记录,笔迹复杂,适合HTR研究。数据集提供400页训练数据,采用PAGE格式行级别注释,由瓦伦西亚理工大学于2018年发布。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作