TextBite
收藏arXiv2025-03-21 更新2025-03-25 收录
下载链接:
https://github.com/DCGM/textbite-dataset
下载链接
链接失效反馈官方服务:
资源简介:
TextBite是一个包含18至20世纪历史捷克文献的页面图像数据集,共有8449页,每页都有78,863个逻辑上和主题上连贯的文本段落的注释。数据集的特点是多样化的布局,既有简单的书籍页面和词典,也有复杂的报纸和多栏格式。数据集由布拉格工业大学信息学院提供,旨在支持文档逻辑页面分割的研究,包括文本区域检测和关系预测的基线方法。
TextBite is a page-image dataset containing historical Czech documents from the 18th to 20th centuries, totaling 8,449 pages, with annotations for 78,863 logically and thematically coherent text paragraphs per page. The dataset features diverse layouts, ranging from simple book pages and dictionaries to complex newspapers and multi-column formats. It is provided by the Faculty of Information Technology, Czech Technical University in Prague, and aims to support research on document logical page segmentation, including baseline methods for text region detection and relationship prediction.
提供机构:
布拉格工业大学信息学院
创建时间:
2025-03-21
搜集汇总
数据集介绍

构建方式
TextBite数据集的构建基于18至20世纪的历史捷克文献,涵盖报纸、词典和手写记录等多种布局类型。数据采集过程通过与捷克图书馆合作,从数字化文献中筛选出8,449页图像,并经过多轮人工筛选以确保数据质量。标注过程采用开源工具Label Studio,由学生、图书管理员和研究人员共同完成,确保标注的一致性和准确性。每页标注包括边界框和关系连接,形成逻辑连贯的文本段。此外,数据集还提供了OCR生成的文本表示,支持多种研究任务。
使用方法
TextBite数据集的使用方法包括逻辑页面分割、阅读顺序预测和文档布局分析等任务。研究人员可以通过下载数据集和基线模型,利用提供的评估框架进行实验。评估采用Rand指数,仅考虑前景文本像素,确保结果不受背景像素干扰。数据集支持多种格式的标注和OCR输出,便于集成到现有工作流程中。此外,基线方法如YOLOv11检测模型和图神经网络(GNN)为研究提供了参考起点,帮助快速验证新算法的有效性。
背景与挑战
背景概述
TextBite数据集由捷克布尔诺理工大学的Martin Kostelník、Karel Beneš和Michal Hradiš等研究人员于2025年创建,旨在推动历史文献逻辑页面分割的研究。该数据集包含18至20世纪的捷克历史文献,涵盖报纸、词典和手写记录等多种布局类型,共8,449页图像和78,863个标注段落。其核心研究问题是通过纯图像域分割解决传统OCR依赖和几何变化敏感性问题,为文档智能领域提供了重要的基准资源。该数据集的创新性在于提出基于像素聚类的评估方法,显著提升了逻辑分割任务的客观性和可比性。
当前挑战
TextBite数据集主要面临两大挑战:在领域问题层面,历史文献的多样化布局(如多栏报纸、嵌套词典条目)和手写体不规则结构对逻辑连贯性判定提出极高要求;在构建过程中,团队需克服标注一致性难题——不同时期印刷风格差异、手写体模糊区域界定以及多语言混杂(如捷克语主导下的德语片段)都增加了标注复杂度。此外,评估体系需平衡像素级精度与语义连贯性,避免过度依赖OCR结果或几何边界精确度。
常用场景
经典使用场景
TextBite数据集在历史文献数字化与智能分析领域展现了其独特价值,尤其适用于多栏排版、手写体与印刷体混合的复杂文档场景。该数据集通过标注18-20世纪捷克历史文献中的逻辑语义单元(如报纸专栏、词典条目),为无OCR依赖的像素级页面分割任务提供了标准化评估框架,典型应用于跨栏文本的连贯性重建与手写章节的语义边界识别。
解决学术问题
该数据集创新性地解决了传统文档分割方法对OCR精度与几何检测的强依赖问题。通过将逻辑分割重构为前景像素聚类任务,消除了文本流顺序假设带来的误差,并规避了边界框轻微偏移对评估的干扰。其评估指标仅关注文本像素的聚类一致性,为跨语言、跨时期的历史文献分析提供了统一基准,显著提升了复杂布局下的语义单元识别鲁棒性。
实际应用
在文化遗产数字化工程中,TextBite支持图书馆对多语言混合的历史报刊进行自动化语义索引,例如分离广告板块与新闻正文。教育领域可利用其手写注释分割结果构建交互式档案检索系统,而出版行业则借助印刷体布局分析优化古籍重排流程。该数据集特别适用于中东欧地区含德语借词的历史文献处理。
数据集最近研究
最新研究方向
在文档智能领域,TextBite数据集的推出为历史文献的逻辑页面分割研究开辟了新路径。该数据集聚焦于18至20世纪的捷克历史文献,涵盖报纸、词典和手写记录等多种复杂版式,为无OCR依赖的纯图像域分割任务提供了基准。当前前沿研究主要围绕像素聚类评估框架展开,通过仅考量文本前景像素的创新性指标设计,有效规避了几何变异和OCR误差对分割精度的影响。这一范式突破了传统基于文本流或目标检测方法的局限,与文档理解领域多模态预训练模型的发展趋势形成互补。近期相关研究热点包括图神经网络在区域关系建模中的应用,以及视觉-文本联合表征在复杂版式分析中的迁移学习,这些方向在TextBite的基线实验中已展现出92.5%的Rand指数性能。该数据集的发布不仅推动了文化遗产数字化中的语义单元解析技术,也为跨语言历史文献分析提供了可扩展的评估框架。
相关研究论文
- 1TextBite: A Historical Czech Document Dataset for Logical Page Segmentation布拉格工业大学信息学院 · 2025年
以上内容由遇见数据集搜集并总结生成



