five

DIVA-HisDB

收藏
帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-322.html
下载链接
链接失效反馈
官方服务:
资源简介:
Within HisDoc 2.0 we have developed DIVA-HisDB a precisely annotated large dataset of challenging medieval manuscripts for the evaluation of several Document Image Analysis (DIA) tasks such as layout analysis, text line segmentation, binarization and writer identification. The database consists of 150 annotated pages of three different medieval manuscripts with challenging layouts. DIVA-HisDB is a collection of three medieval manuscripts that have been chosen regarding the complexity of their layout [1], together with partners from e-codices and the Humanities faculty in the University of Fribourg: And their corresponding GT visualization of the three annotation categories (main text body, comments, decorations): DIVA-HisDB consists of 150 pages in total, 50 pages from each manuscript. For the dataset, as well as for the division into training, validation, and test set we have selected a representative set of pages.

在HisDoc 2.0项目中,我们研发了DIVA-HisDB——一款经过精细标注的大型挑战性中世纪手稿数据集,可用于评估文档图像分析(Document Image Analysis, DIA)的多项任务,包括版面分析、文本行分割、二值化以及作者识别。该数据库包含来自3部不同中世纪手稿的150页经精细标注的内容,其版面结构极具挑战性。DIVA-HisDB的3部手稿均依据版面复杂度筛选而出[1],我们联合了e-codices合作伙伴以及弗里堡大学(University of Fribourg)人文学院完成相关工作。该数据集涵盖三类标注类别的真值(Ground Truth, GT)可视化结果,分别为正文主体、注释与装饰元素。DIVA-HisDB总计包含150页数据,每部手稿各提供50页。在数据集构建以及训练集、验证集与测试集的划分过程中,我们均选取了具有代表性的页面样本。
提供机构:
帕依提提
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DIVA-HisDB是一个精确注释的中世纪手稿数据集,包含150页来自三个不同手稿的页面,用于文档图像分析任务评估。数据集特别适用于布局分析、文本行分割等复杂任务的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作