digital-history-bielefeld/image-text_anglicana-legal-texts
收藏Hugging Face2026-04-30 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/digital-history-bielefeld/image-text_anglicana-legal-texts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含21,579行高质量的手写文本识别(HTR)地面真实数据,由比勒费尔德大学FLOW项目(数字历史)创建,用于训练中世纪行政和法律文件的HTR模型。数据集包括图像片段(行)及其对应的转录和行坐标。材料聚焦于13世纪和14世纪用Anglicana字体和拉丁语书写的法律记录。每个条目包含:图像片段、行的外交转录、几何元数据(如行坐标和基线)、文档结构信息(如边注与正文)以及来源信息(如文件名和项目名称)。数字图像最初由AALT协会(可用租约和标题档案)提供,原始物理记录由英国国家档案馆(TNA)保存。转录根据Open Government Licence v3.0发布,图像片段经TNA特别许可发布,用于促进HTR研究和训练。数据集遵循外交转录方法,包括缩写扩展、字符规范化、原始拼写保留、特殊符号转录等。
This dataset contains 21,579 lines of high-quality Ground Truth data for Handwritten Text Recognition (HTR). It was created by the FLOW Project at Bielefeld University (Digital History) to facilitate the training of HTR models for medieval administrative and legal documents. The dataset consists of image snippets (lines) paired with their corresponding transcriptions and the line coordinates. The material focuses on legal records from the 13th and 14th centuries written in Anglicana script and Latin language. Each entry includes: the image snippet of a single line, the diplomatic transcription of the line, geometric metadata for precise localization (line_coords & line_baseline), information about the document structure (region_type), and provenance information (filename & project_name). The digital images were originally provided by the AALT Society (Archive of Available Leases and Titles), with original physical records held by The National Archives (TNA), Kew, UK. Transcriptions are published under the Open Government Licence v3.0, and image snippets are reproduced by permission of TNA for HTR research and training. The transcriptions follow a diplomatic approach, including expanded abbreviations, preserved original spelling, and specific rules for special signs.
提供机构:
digital-history-bielefeld
搜集汇总
数据集介绍

构建方式
该数据集由德国比勒费尔德大学数字历史学系的FLOW项目精心构建,旨在为手写文本识别(HTR)研究提供高质量的训练数据。数据源自英国国家档案馆(TNA)所藏的13至14世纪盎格鲁体(Anglicana)拉丁文法律文献,原始数字图像由AALT协会提供。项目团队从大量法律文书中提取了21,579行文本行,为每行图像配备了逐字转录文本、行坐标与基线几何信息,并标注了区域类型(如页边注与正文)及来源文件名。转录工作遵循半外交式(semi-diplomatic)原则:缩写被展开,原稿中的字母拼写(如u与v)与大小写得以保留,并采用⁋、‧等特殊符号忠实再现段落标记与标点。
特点
该数据集的核心特色在于其高度的专业性与结构完整性。聚焦于中世纪法律文书这一特定领域,数据集中包含的边缘注、正文等区域分类信息,为模型理解复杂文档布局提供了宝贵线索。每行图像均与精确的基线及坐标数据相绑定,支持精细的线条分割与定位任务。此外,数据集获得了英国国家档案馆的特殊许可,允许在非商业学术研究中公开使用图像片段,兼顾了版权合规与开放科学精神。其转录政策在保留原稿历史语言学特征的同时,通过标准化缩写展确保了后续机器学习任务的兼容性。
使用方法
该数据集以Parquet格式存储,可通过Hugging Face Datasets库便捷加载。用户可直接调用`load_dataset`函数读取`default`配置下的训练集,获取包含图像(以字节流形式)、转录文本、行坐标与元数据的完整样本。图像数据需通过`Image`模块解码后用于视觉模型输入,文本与坐标信息则适用于序列标注训练。数据预分割为单一行图像,特别适合用于训练端到端的HTR模型,如TrOCR架构。项目团队已基于此数据训练出专用模型`dh-unibe/trocr-essoins-middle-latin`,可作为强基线或微调起点。研究者应遵循Open Government Licence v3.0协议,并在出版物中按指定格式引用数据集出处。
背景与挑战
背景概述
该数据集由比勒费尔德大学数字历史学系的FLOW项目团队(Melvin Wilde与Christopher Kuhlmann)于2026年创建,聚焦13至14世纪以盎格鲁纳书写体和拉丁语记录的英格兰法律文献。其核心研究问题在于为手写文本识别(HTR)领域提供高质量、精细标注的基准数据,以推动中世纪行政与法律手稿的自动化转录研究。数据集包含21,579行图像片段与对应转录文本,并由英国国家档案馆授权发布,源于AALT协会提供的数字影像。作为中世纪古文书学与数字人文交叉领域的重要资源,该数据集填补了HTR训练数据在特定历史书写体和语境中的空白,对研究欧洲中世纪法律实践及文本流通具有显著推动作用。
当前挑战
数据集所解决的领域挑战主要在于中世纪手写文本识别中缺乏针对盎格鲁纳书写体和拉丁法律文本的高质量标注数据,这类文本存在大量缩写、特殊符号及非标准化拼写,传统OCR模型难以有效处理。构建过程中面临的关键挑战包括:对13-14世纪法律文书进行精准的转录规范制定,例如扩展缩写的同时保留原始拼写特征(如u/v区分、仅使用i而非j);应对复杂版式(如页边注与正文交替)的坐标标注与行分割问题;以及协调英国国家档案馆对图像使用的权限限制,确保数据在开放政府许可框架下合法发布以支持学术研究。
常用场景
经典使用场景
该数据集在数字人文与手写文本识别(HTR)领域具有经典应用价值,其核心用途在于为13至14世纪中世纪英格兰法律文献的自动转录提供高质量的基准训练数据。通过将历史手稿的图像片段与经过严谨外交学原则转录的文本、行坐标及基线几何信息进行配对,研究者得以训练基于深度学习的序列识别模型。该数据集特别针对Anglicana字体和拉丁语法律文书设计,弥补了中世纪手写体识别中特定字体与语言组合的空白,成为构建高精度HTR系统不可或缺的基石。
解决学术问题
该数据集针对中世纪历史文献研究中长期存在的两大学术难题提供了有效解决方案:其一是手写文本识别模型对古字体与变体拉丁文的泛化能力不足,其二是高精度逐行转录与版面结构还原的自动化需求。通过提供包含行坐标、基线及区域类型(如正文与旁注)在内的精细元数据,数据集推动了从原始图像到结构化文本的全流程自动化研究,显著提升了处理中世纪法律卷宗的效率与准确性,为大规模历史语料库的数字化与量化分析奠定了方法论基础。
衍生相关工作
基于该数据集已衍生出多项标志性工作,其中最具代表性的是由同一团队利用TrOCR架构训练的预训练模型dh-unibe/trocr-essoins-middle-latin,该模型专门针对中世纪拉丁语法律文本的端到端识别进行了优化。此外,该数据集还催生了关于中世纪抄本版面分割算法的改进研究,以及结合自注意力机制增强行基线检测鲁棒性的方法。这些衍生工作不仅深化了Anglicana字体的形态学分析,还为跨字体(如Textura Quadrata)HTR迁移学习提供了基线参考,推动了数字古文书学从实验走向实用化部署。
以上内容由遇见数据集搜集并总结生成



