Codex Marianus

github2017-12-08 更新2024-05-31 收录

下载链接：

https://github.com/mlj/corpus-ccmh

下载链接

链接失效反馈

官方服务：

资源简介：

这是Corpus Cyrillo-Methodianum Helsingiense中Codex Marianus的更新版本，包含了对原始版本的修正，并转换为UTF-8编码的CSV格式。数据集包含多个字段，如书籍名称、章节、诗句、行号和文本内容。

This is an updated version of the Codex Marianus from the Corpus Cyrillo-Methodianum Helsingiense, which includes corrections to the original version and has been converted into a CSV format with UTF-8 encoding. The dataset contains multiple fields such as book name, chapter, verse, line number, and text content.

创建时间：

2015-10-10

原始信息汇总

数据集概述

数据集名称

Codex Marianus from the Corpus Cyrillo-Methodianum Helsingiense

数据集版本

更新版本，包含从PROIEL treebank版本回溯的修正。

数据格式

转换为UTF-8编码。
文件格式为CSV。

数据结构

列号	列名	描述
0	`BOOK`	福音书名称（"MATT", "MARK", "LUKE", "JOHN"）
1	`CHAPTER`	章节号
2	`VERSE`	节号
3	`LINE`	节内行号（文件中，非代码中：0,1,2,...）
4	`TEXT`	文本内容

特殊说明

除马太福音外，每部福音书开头都有一个“00-章节, 00-节”部分，用于放置代码中的段落列表。
LINE 列在其他情况下表示节内的行号。
UTF-8转换不完全忠实于原始版本，无法正确表示所有上标。

搜集汇总

数据集介绍

构建方式

Codex Marianus数据集的构建基于Corpus Cyrillo-Methodianum Helsingiense的原始版本，经PROIEL treebank版本的修正后回传，包含了文本的UTF-8格式转换。该数据集以逗号分隔值(CSV)文件形式呈现，涵盖福音书名称、章节、诗句、行号及文本内容等列，特别处理了每部福音书开头的特殊章节标记。

特点

此数据集特点在于，其不仅包含了福音书文本，还具备篇章结构的详细标注，以及特殊的行号标记，这对于文本分析和历史文献研究具有重要价值。此外，数据集还保留了原始版本的特殊段落标记，以及UTF-8转换后的大部分字符，尽管部分上标字符的精确转换尚有难度。

使用方法

用户可按照CSV格式直接读取数据集，利用其中的列信息进行福音书文本的深入研究。对于文本的UTF-8转换问题，用户可根据提供的脚本进行再次转换，并注意脚本会针对未能转换的上标字符输出警告信息。

背景与挑战

背景概述

Codex Marianus数据集源于 Corpus Cyrillo-Methodianum Helsingiense，是古斯拉夫语文学研究的重要资源。该数据集由赫尔辛基大学的斯拉夫语言系整理，旨在为学者提供一份经过更新的 Codex Marianus 文本，该文本原版可追溯至PROIEL树库版本。Codex Marianus 是一份古老的福音书手稿，对于研究早期基督教文献及古斯拉夫语的语法结构具有重要意义。数据集的创建，不仅丰富了古斯拉夫语研究的资料库，也促进了相关领域学术研究的深入发展。

当前挑战

尽管Codex Marianus数据集为研究提供了宝贵的资源，但在构建过程中仍面临诸多挑战。首先，数据集的转换至UTF-8编码遇到了难题，部分特殊的上标字符无法准确转换，影响了数据的完整性。其次，数据集中对每一福音书开始的特殊章节标记处理，即“00-chapter, 00-verse”部分的行号划分，与普通章节的处理存在差异，这为数据的一致性处理带来了挑战。此外，数据集在解决领域问题如文本分析、语法标注等方面的应用，还需克服如何准确反映原始手稿特性的问题。

常用场景

经典使用场景

在文本分析与文献研究之领域，Codex Marianus数据集的经典使用场景主要在于为学者提供一个校对精准、格式统一的宗教文本资源。该数据集包含《马太福音》、《马可福音》、《路加福音》及《约翰福音》的原始文本，并按照章节与诗句进行了详细的划分，使得研究者能够轻松地针对特定文本片段进行深入分析与比对。

解决学术问题

该数据集解决了宗教文本研究中，由于不同版本圣经之间文本差异所导致的比较分析困难。它通过提供一个基于CSV格式且转换为UTF-8的统一文本结构，使得学者能够更加便捷地进行跨文本的语义分析和语言学研究，这对于宗教文献的校勘、历史文本的解读以及神学领域的学术探讨具有重大价值。

衍生相关工作

基于Codex Marianus数据集的研究成果，已经衍生出一系列相关经典工作。学者们利用该数据集进行了语法结构分析、词性标注研究，以及构建了用于自然语言处理的训练模型。这些工作进一步扩展了数据集的应用范围，为宗教文本的信息化处理和智能分析提供了丰富的案例和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集