five

Codex Marianus

收藏
github2017-12-08 更新2024-05-31 收录
下载链接:
https://github.com/mlj/corpus-ccmh
下载链接
链接失效反馈
官方服务:
资源简介:
这是Corpus Cyrillo-Methodianum Helsingiense中Codex Marianus的更新版本,包含了对原始版本的修正,并转换为UTF-8编码的CSV格式。数据集包含多个字段,如书籍名称、章节、诗句、行号和文本内容。

This is an updated version of the Codex Marianus from the Corpus Cyrillo-Methodianum Helsingiense, which includes corrections to the original version and has been converted into a CSV format with UTF-8 encoding. The dataset contains multiple fields such as book name, chapter, verse, line number, and text content.
创建时间:
2015-10-10
原始信息汇总

数据集概述

数据集名称

Codex Marianus from the Corpus Cyrillo-Methodianum Helsingiense

数据集版本

更新版本,包含从PROIEL treebank版本回溯的修正。

数据格式

  • 转换为UTF-8编码。
  • 文件格式为CSV。

数据结构

列号 列名 描述
0 BOOK 福音书名称("MATT", "MARK", "LUKE", "JOHN")
1 CHAPTER 章节号
2 VERSE 节号
3 LINE 节内行号(文件中,非代码中:0,1,2,...)
4 TEXT 文本内容

特殊说明

  • 除马太福音外,每部福音书开头都有一个“00-章节, 00-节”部分,用于放置代码中的段落列表。
  • LINE 列在其他情况下表示节内的行号。
  • UTF-8转换不完全忠实于原始版本,无法正确表示所有上标。
搜集汇总
数据集介绍
main_image_url
构建方式
Codex Marianus数据集的构建基于Corpus Cyrillo-Methodianum Helsingiense的原始版本,经PROIEL treebank版本的修正后回传,包含了文本的UTF-8格式转换。该数据集以逗号分隔值(CSV)文件形式呈现,涵盖福音书名称、章节、诗句、行号及文本内容等列,特别处理了每部福音书开头的特殊章节标记。
特点
此数据集特点在于,其不仅包含了福音书文本,还具备篇章结构的详细标注,以及特殊的行号标记,这对于文本分析和历史文献研究具有重要价值。此外,数据集还保留了原始版本的特殊段落标记,以及UTF-8转换后的大部分字符,尽管部分上标字符的精确转换尚有难度。
使用方法
用户可按照CSV格式直接读取数据集,利用其中的列信息进行福音书文本的深入研究。对于文本的UTF-8转换问题,用户可根据提供的脚本进行再次转换,并注意脚本会针对未能转换的上标字符输出警告信息。
背景与挑战
背景概述
Codex Marianus数据集源于 Corpus Cyrillo-Methodianum Helsingiense,是古斯拉夫语文学研究的重要资源。该数据集由赫尔辛基大学的斯拉夫语言系整理,旨在为学者提供一份经过更新的 Codex Marianus 文本,该文本原版可追溯至PROIEL树库版本。Codex Marianus 是一份古老的福音书手稿,对于研究早期基督教文献及古斯拉夫语的语法结构具有重要意义。数据集的创建,不仅丰富了古斯拉夫语研究的资料库,也促进了相关领域学术研究的深入发展。
当前挑战
尽管Codex Marianus数据集为研究提供了宝贵的资源,但在构建过程中仍面临诸多挑战。首先,数据集的转换至UTF-8编码遇到了难题,部分特殊的上标字符无法准确转换,影响了数据的完整性。其次,数据集中对每一福音书开始的特殊章节标记处理,即“00-chapter, 00-verse”部分的行号划分,与普通章节的处理存在差异,这为数据的一致性处理带来了挑战。此外,数据集在解决领域问题如文本分析、语法标注等方面的应用,还需克服如何准确反映原始手稿特性的问题。
常用场景
经典使用场景
在文本分析与文献研究之领域,Codex Marianus数据集的经典使用场景主要在于为学者提供一个校对精准、格式统一的宗教文本资源。该数据集包含《马太福音》、《马可福音》、《路加福音》及《约翰福音》的原始文本,并按照章节与诗句进行了详细的划分,使得研究者能够轻松地针对特定文本片段进行深入分析与比对。
解决学术问题
该数据集解决了宗教文本研究中,由于不同版本圣经之间文本差异所导致的比较分析困难。它通过提供一个基于CSV格式且转换为UTF-8的统一文本结构,使得学者能够更加便捷地进行跨文本的语义分析和语言学研究,这对于宗教文献的校勘、历史文本的解读以及神学领域的学术探讨具有重大价值。
衍生相关工作
基于Codex Marianus数据集的研究成果,已经衍生出一系列相关经典工作。学者们利用该数据集进行了语法结构分析、词性标注研究,以及构建了用于自然语言处理的训练模型。这些工作进一步扩展了数据集的应用范围,为宗教文本的信息化处理和智能分析提供了丰富的案例和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作