bdd-abbreviations-augmented

Hugging Face2025-08-04 更新2025-08-05 收录

下载链接：

https://huggingface.co/datasets/mschonhardt/bdd-abbreviations-augmented

下载链接

链接失效反馈

官方服务：

资源简介：

BDD Abbreviations Augmented数据集是一个用于自动缩写扩展的平行语料库，主要用于对11世纪拉丁文手稿转录进行训练。数据集提供了缩写文本及其对应的完整扩展文本的配对示例。数据集是从五份关键的《布卡迪的教令》手稿中生成的，这些手稿由Burchards Dekret Digital项目团队转录。数据集的目标是训练字节级序列到序列模型，如ByT5，以辅助创建数字批判版。数据集的主要任务是翻译“图形”转录，即使用特殊的Unicode字符(MUFI)保留抄写员缩写，成为完全可读的扩展拉丁文本。

创建时间：

2025-07-21

原始信息汇总

Burchards Decretum Dataset Abbreviations Augmented 数据集概述

数据集简介

目的：用于11世纪拉丁文手稿转录中的自动缩写扩展，提供缩写文本（源）与完整扩展（目标）的配对示例。
来源：源自Burchards Dekret Digital (BDD)项目对《Burchards Decree》五个关键11世纪手稿的转录。
任务：将保留抄写缩写的“字素”转录转换为完全可读的扩展拉丁文本。

数据集详情

语言：中世纪拉丁语（la）。
许可：Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)。
数据量：10K<n<100K。
任务类型：文本生成（text2text-generation）。

数据结构

数据实例：包含缩写拉丁文本（source_text）和完整扩展文本（target_text）的JSON对象。
数据字段：
- source_text：使用标准及特殊Unicode字符表示的缩写拉丁文本。
- target_text：对应的完整扩展拉丁文本。
数据分割：仅包含训练集。

数据来源

手稿来源：
- Bamberg, Staatsbibliothek, Msc. Can. 6
- Frankfurt, Universitätsbibliothek, Ms. Barth. 50
- Köln, Erzbischöfliche Diözesan- und Dombibliothek, Cod. 119
- Vatican, Biblioteca Apostolica Vaticana, Pal. lat. 585
- Vatican, Biblioteca Apostolica Vaticana, Pal. lat. 586

注释与生成

注释过程：BDD项目编辑转录并扩展手稿中的缩写，使用TEI-XML的<choice>元素编码。
配对生成：通过脚本处理TEI文件，使用3行滑动窗口提供上下文，提取<abbr>和<expan>标签生成配对。

使用注意事项

专业性：数据集高度专业化，反映11世纪初Worms抄写实践，可能不适用于其他时期或地区的手稿。
局限性：模型仅能扩展训练数据中出现的缩写，无法处理未包含的缩写。

引用信息

bibtex @misc{schonhardt_bdd_abbreviations_2025, author = {Schonhardt, Michael}, title = {BDD Abbreviations Augmented: A Parallel Corpus for Abbreviation Expansion in Medieval Latin}, year = {2025}, institution = {Burchards Dekret Digital}, doi={https://doi.org/10.5281/zenodo.16735498}, howpublished = {url{https://huggingface.co/datasets/mschonhardt/bdd-abbreviations-augmented}} }

搜集汇总

数据集介绍

构建方式

在中世纪拉丁语文献数字化研究领域，该数据集基于布夏德法令数字项目（BDD）提供的五份11世纪核心手稿的TEI-XML转录文件构建。专家编辑团队采用<choice>元素对抄本中的缩写形式（<abbr>）与扩展形式（<expan>）进行人工标注，随后通过滑动窗口算法提取上下文片段，并针对罕见缩写符号进行了数据增强处理，最终形成包含源文本与目标扩展文本的平行语料。

使用方法

该数据集适用于序列到序列的缩写扩展任务，研究者可将其用于训练字节级模型（如ByT5）。输入为包含MUFI符号的缩写文本（source_text），输出预期为完整扩展的拉丁语文本（target_text）。使用时需注意其地域与时代特异性，针对其他传统的手稿可能需进行额外微调方能获得理想效果。

背景与挑战

背景概述

中世纪拉丁文手稿的数字化处理是数字人文领域的核心研究课题，bdd-abbreviations-augmented数据集由德国达姆施塔特工业大学与美因茨科学与文学院联合开发，专注于11世纪《布尔夏德教会集》手稿的缩写扩展任务。该数据集基于沃尔姆斯脚本orium的五份核心抄本构建，采用中世纪 Unicode 字体倡议（MUFI）标准编码，为序列到序列模型提供训练样本，推动数字批判性版本自动生成技术的发展。

当前挑战

该数据集需解决中世纪拉丁文缩写多义性与区域特异性问题，如相同缩写符号在不同语境中对应不同扩展形式。构建过程中面临古文字学专家标注成本高昂、TEI-XML转录数据到平行语料转换的技术复杂性，以及罕见缩写符号数据增强的平衡性挑战。此外，MUFI特殊字符的标准化处理与模型泛化能力受限也是重要制约因素。

常用场景

经典使用场景

在中世纪拉丁语文献数字化研究领域，该数据集专为训练序列到序列模型设计，通过提供缩写文本与完整扩展文本的平行语料，支持自动化缩写扩展任务。其核心应用场景聚焦于11世纪沃尔姆斯修道院抄本中特定缩写体系的识别与还原，为拜占庭式法律文献的机器处理提供标准化解决方案。

解决学术问题

该数据集有效解决了中世纪文献学中抄本缩写自动化解码的学术难题，通过MUFI标准字符集的系统标注，建立了中世纪拉丁语缩写与扩展形式的映射关系。其意义在于为数字批判版本编纂提供了可计算的文本处理基础，显著降低了古文字学专家人工校勘的时间成本，推动了计算文献学方法在历史语言学中的应用。

实际应用

在实际应用层面，该数据集支撑的模型可直接集成于数字人文学科的工作流程，用于自动化处理《布尔夏德教令集》等中世纪法典的数字化转录。其输出结果可作为文本批判版本生成的中间层，辅助学者快速获取可读的扩展文本，同时为大型中世纪文献数据库的语义标注和跨手稿对比研究提供预处理支持。

数据集最近研究