Martijn Trilogy Manuscripts
收藏github2023-12-20 更新2024-05-31 收录
下载链接:
https://github.com/SofieMoors/martijnmanuscripts
下载链接
链接失效反馈官方服务:
资源简介:
本数据集源自一项由弗拉芒研究基金会资助的研究项目,编号为1182723N。数据集包含了中古荷兰诗《Martijn Trilogy》手稿的超外交转录,共计15,811节或79,359个词。这些转录严格遵循外交原则,为研究手稿归属(手稿概况)、缩写、文本稳定性等提供了宝贵的可能性。
This dataset originates from a research project funded by the Flemish Research Foundation, with the project number 1182723N. The dataset contains a diplomatic transcription of the medieval Dutch poem 'Martijn Trilogy' manuscript, comprising 15,811 stanzas or 79,359 words. These transcriptions strictly adhere to diplomatic principles, offering valuable possibilities for studying manuscript attribution (manuscript profiles), abbreviations, and textual stability.
创建时间:
2023-11-16
原始信息汇总
数据集概述
数据集名称
The Martijn Trilogy Manuscripts: An Open Dataset for Analyzing Scribal Variation
数据集内容
该数据集包含中古荷兰诗《Martijn Trilogy》的手稿转录,共计17个文本见证,总计15,811节或79,359个词。这些转录严格遵守外交原则,适用于研究抄写员归属、缩写、文本稳定性等。
数据集特点
- 文本见证数量:17个
- 总节数:15,811节
- 总词数:79,359个词
- 文本格式:提供多种互补文件格式,包括HTML、XML、TXT等
- 许可证:CC-BY-SA
数据集应用
- 抄写员归属(抄写员画像)
- 缩写研究
- 文本稳定性分析
- 其他相关研究
数据集文件格式
- HTML:17个文件,包含扩展的缩写
- XML:17个文件,从
rich_txt生成 - TXT:17个文件,包括
plain_txt和rich_txt - XLSX:包含所有17个见证的综述
- VIZ:包含时间线和像素图
数据集预处理
- 脚本:包括
txt2xml.ipynb、xml2txt.ipynb等,用于数据转换和可视化 - 标记说明:在
rich_txt中使用特殊标记,如&FOLIO_COLUMN&、§STROPHE§等,以增强文本的语义标记
数据集引用
数据集详细信息
文本见证列表
| 编号 | 标题(别名) | 存储位置和签名 | 当前状态和内容 | 版本 | 图像 |
|---|---|---|---|---|---|
| 1 | C (Gronings-Zutphens Maerlant Manuscript) | University of Groningen Library HS 405 | M1, M3 | Staring van den Wildenborch (1834); Meijer (1838) | Digital |
| 2 | E | Heidelberg University Library HS 200 (olim: HS. 362a, 83) | Fragmentary M1, M2, M3 | Mone (1838); Mertens (1978) | Digital |
| ... | ... | ... | ... | ... | ... |
| 17 | D2 (Print) | Leiden University Library LTK 1021 | Fragmentary M1, M2 | Breugelmans (1986) | / |
以上信息概述了数据集的主要内容、特点和应用,以及详细的文本见证列表和文件格式说明。
搜集汇总
数据集介绍

构建方式
《Martijn Trilogy》手稿数据集通过数字化转录17份现存的中世纪荷兰语手稿构建而成,涵盖了15,814行诗句和79,337个词汇。这些手稿源自13世纪,由抄写员和印刷者传播至约1500年。数据集采用超外交转录方式,严格保留了原始手稿的书写特征,包括缩写、符号和文本损坏部分。转录过程中,部分手稿通过光学字符识别技术(OCR)从现有版本中数字化,确保了数据的准确性和完整性。
特点
该数据集以其严格的外交转录方式著称,完整保留了中世纪手稿的书写特征,如缩写、符号和文本损坏部分。数据集包含17份手稿的平行文本,涵盖了《Martijn Trilogy》的全部内容,为研究抄写员特征、缩写形式、文本稳定性和谱系学提供了丰富的素材。此外,数据集遵循FAIR原则,采用CC-BY-SA许可,并以多种文件格式提供,便于不同研究需求的使用。
使用方法
数据集提供了多种文件格式,包括HTML、XML、纯文本和Excel表格,便于不同研究场景的使用。HTML文件包含缩写展开和未展开的版本,XML文件通过脚本从富文本转换而来,Excel表格则展示了所有手稿的同步对照文本。研究人员可通过提供的脚本将数据转换为所需格式,或直接使用预处理后的文件进行分析。数据集还包含可视化工具,如时间线和像素图,帮助用户直观理解手稿的传播和变异情况。
背景与挑战
背景概述
《Martijn Trilogy Manuscripts》数据集源于一项由佛兰德斯研究基金会资助的研究项目,项目编号为1182723N。该数据集由Sofie Moors、Mike Kestemont和Remco Sleiderink等研究人员于2024年发布,旨在为中世纪荷兰诗人Jacob van Maerlant的《Martijn Trilogy》手稿提供转录文本。这部作品创作于13世纪,其手稿在随后的几个世纪中通过抄写员和印刷者广泛传播,直至约1500年。数据集包含了17份现存手稿的超外交转录,总计15,814行诗句或79,337个词汇。这些转录文本严格遵循外交原则,为研究抄写员特征、缩写、文本谱系学及文本稳定性等提供了宝贵的资源。该数据集遵循FAIR原则,并以CC-BY-SA许可开放访问,支持多种文件格式。
当前挑战
《Martijn Trilogy Manuscripts》数据集在构建过程中面临多重挑战。首先,手稿的多样性和复杂性使得转录工作极为繁琐,尤其是部分手稿存在残缺或损坏,需通过光学字符识别技术进行数字化处理。其次,由于手稿跨越多个世纪,抄写员的书写习惯和缩写方式差异显著,增加了文本对齐和语义标注的难度。此外,数据集的目标是支持抄写员特征分析、文本谱系学等研究,这要求转录文本必须高度精确,以确保后续分析的可靠性。最后,数据集的开放性和多格式支持虽然提升了可用性,但也对数据预处理和格式转换提出了更高的技术要求。
常用场景
经典使用场景
《Martijn Trilogy》手稿数据集为研究中世纪荷兰诗歌的抄写变异提供了丰富的资源。该数据集包含了17份现存手稿的超外交转录,涵盖了15,814节诗行和79,337个词汇。研究者可以通过这些转录文本,深入分析抄写员的书写习惯、缩写形式、文本稳定性以及文本传播过程中的变异情况。该数据集特别适用于抄写员身份识别、文本谱系学以及中世纪文学传播的研究。
解决学术问题
该数据集解决了中世纪文学研究中多个关键问题。首先,它为中世纪荷兰诗歌的抄写变异研究提供了详实的文本基础,帮助学者识别不同抄写员的书写特征。其次,通过对文本稳定性的分析,研究者可以更好地理解文本在传播过程中的变化规律。此外,数据集还为文本谱系学研究提供了重要支持,帮助构建文本传播的历史脉络。这些研究不仅丰富了中世纪文学的研究方法,也为其他历史文本的分析提供了参考。
衍生相关工作
基于《Martijn Trilogy》手稿数据集,已有多项经典研究问世。例如,Moors等人(2024)利用该数据集进行了抄写员身份识别的研究,揭示了不同抄写员的书写特征。此外,Kestemont等人(2023)通过文本对齐技术,分析了文本传播中的变异规律。这些研究不仅推动了中世纪文学研究的发展,也为数字人文学科提供了新的研究方法。未来,该数据集有望在更多领域发挥重要作用,如自然语言处理和历史文本分析。
以上内容由遇见数据集搜集并总结生成



