Codex Marianus
收藏github2017-12-08 更新2024-05-31 收录
下载链接:
https://github.com/mlj/corpus-ccmh
下载链接
链接失效反馈官方服务:
资源简介:
这是Corpus Cyrillo-Methodianum Helsingiense中Codex Marianus的更新版本,包含了对原始版本的修正,并转换为UTF-8编码的CSV格式。数据集包含多个字段,如书籍名称、章节、诗句、行号和文本内容。
This is an updated version of the Codex Marianus from the Corpus Cyrillo-Methodianum Helsingiense, which includes corrections to the original version and has been converted into a CSV format with UTF-8 encoding. The dataset contains multiple fields such as book name, chapter, verse, line number, and text content.
创建时间:
2015-10-10
原始信息汇总
数据集概述
数据集名称
Codex Marianus from the Corpus Cyrillo-Methodianum Helsingiense
数据集版本
更新版本,包含从PROIEL treebank版本回溯的修正。
数据格式
- 转换为UTF-8编码。
- 文件格式为CSV。
数据结构
| 列号 | 列名 | 描述 |
|---|---|---|
| 0 | BOOK |
福音书名称("MATT", "MARK", "LUKE", "JOHN") |
| 1 | CHAPTER |
章节号 |
| 2 | VERSE |
节号 |
| 3 | LINE |
节内行号(文件中,非代码中:0,1,2,...) |
| 4 | TEXT |
文本内容 |
特殊说明
- 除马太福音外,每部福音书开头都有一个“00-章节, 00-节”部分,用于放置代码中的段落列表。
LINE列在其他情况下表示节内的行号。- UTF-8转换不完全忠实于原始版本,无法正确表示所有上标。
搜集汇总
数据集介绍

构建方式
Codex Marianus数据集的构建基于Corpus Cyrillo-Methodianum Helsingiense的原始版本,经PROIEL treebank版本的修正后回传,包含了文本的UTF-8格式转换。该数据集以逗号分隔值(CSV)文件形式呈现,涵盖福音书名称、章节、诗句、行号及文本内容等列,特别处理了每部福音书开头的特殊章节标记。
特点
此数据集特点在于,其不仅包含了福音书文本,还具备篇章结构的详细标注,以及特殊的行号标记,这对于文本分析和历史文献研究具有重要价值。此外,数据集还保留了原始版本的特殊段落标记,以及UTF-8转换后的大部分字符,尽管部分上标字符的精确转换尚有难度。
使用方法
用户可按照CSV格式直接读取数据集,利用其中的列信息进行福音书文本的深入研究。对于文本的UTF-8转换问题,用户可根据提供的脚本进行再次转换,并注意脚本会针对未能转换的上标字符输出警告信息。
背景与挑战
背景概述
Codex Marianus数据集源于 Corpus Cyrillo-Methodianum Helsingiense,是古斯拉夫语文学研究的重要资源。该数据集由赫尔辛基大学的斯拉夫语言系整理,旨在为学者提供一份经过更新的 Codex Marianus 文本,该文本原版可追溯至PROIEL树库版本。Codex Marianus 是一份古老的福音书手稿,对于研究早期基督教文献及古斯拉夫语的语法结构具有重要意义。数据集的创建,不仅丰富了古斯拉夫语研究的资料库,也促进了相关领域学术研究的深入发展。
当前挑战
尽管Codex Marianus数据集为研究提供了宝贵的资源,但在构建过程中仍面临诸多挑战。首先,数据集的转换至UTF-8编码遇到了难题,部分特殊的上标字符无法准确转换,影响了数据的完整性。其次,数据集中对每一福音书开始的特殊章节标记处理,即“00-chapter, 00-verse”部分的行号划分,与普通章节的处理存在差异,这为数据的一致性处理带来了挑战。此外,数据集在解决领域问题如文本分析、语法标注等方面的应用,还需克服如何准确反映原始手稿特性的问题。
常用场景
经典使用场景
在文本分析与文献研究之领域,Codex Marianus数据集的经典使用场景主要在于为学者提供一个校对精准、格式统一的宗教文本资源。该数据集包含《马太福音》、《马可福音》、《路加福音》及《约翰福音》的原始文本,并按照章节与诗句进行了详细的划分,使得研究者能够轻松地针对特定文本片段进行深入分析与比对。
解决学术问题
该数据集解决了宗教文本研究中,由于不同版本圣经之间文本差异所导致的比较分析困难。它通过提供一个基于CSV格式且转换为UTF-8的统一文本结构,使得学者能够更加便捷地进行跨文本的语义分析和语言学研究,这对于宗教文献的校勘、历史文本的解读以及神学领域的学术探讨具有重大价值。
衍生相关工作
基于Codex Marianus数据集的研究成果,已经衍生出一系列相关经典工作。学者们利用该数据集进行了语法结构分析、词性标注研究,以及构建了用于自然语言处理的训练模型。这些工作进一步扩展了数据集的应用范围,为宗教文本的信息化处理和智能分析提供了丰富的案例和方法论。
以上内容由遇见数据集搜集并总结生成



