Oxford NINJAL Corpus of Old Japanese (ONCOJ)

github2021-12-26 更新2024-05-31 收录

下载链接：

https://github.com/ONCOJ/data

下载链接

链接失效反馈

官方服务：

资源简介：

牛津-NINJAL古日语语料库（简称ONCOJ）是一个对古日语时期日本诗歌文本进行词形还原、解析和全面注释的数字语料库。该语料库自2011年开始创建（至2017年称为“牛津古日语语料库（OCOJ）”），作为牛津大学与国立日本语言与语言学研究所（NINJAL）之间的长期合作研究项目持续发展。

The Oxford-NINJAL Corpus of Old Japanese (ONCOJ) is a digital corpus that provides lemmatization, parsing, and comprehensive annotation of Japanese poetic texts from the Old Japanese period. Initiated in 2011 (known as the Oxford Corpus of Old Japanese (OCOJ) until 2017), this corpus has been developed as a long-term collaborative research project between the University of Oxford and the National Institute for Japanese Language and Linguistics (NINJAL).

创建时间：

2021-12-26

原始信息汇总

数据集概述

数据集名称

Oxford NINJAL Corpus of Old Japanese (ONCOJ)

数据集描述

ONCOJ是一个数字化的、经过词形还原、解析和全面注释的古日语诗歌文本语料库。该语料库自2011年开始创建，是一个长期合作研究项目，由牛津大学与日本国立国语研究所（NINJAL）共同开发。

数据集格式

lexicon.xml: 语料库的字典数据库，采用XML格式。
oncoj.csv: 包含所有语料库数据的CSV文件，可通过电子表格程序查看。
psd文件夹: 包含26个.psd文件，格式与CorpusSearch兼容。
xml文件夹: 包含4991个独立的XML文件，每个文件对应一个文本，格式与TEI兼容。

引用格式

使用该语料库的研究成果应按照以下格式引用：

National Institute for Japanese Language and Linguistics (2021) “Oxford-NINJAL Corpus of Old Japanese” http://oncoj.ninjal.ac.jp/ (accessed 26 December 2021)

许可证

语料库的注释（语法分析）根据Creative Commons Attribution 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

牛津-日本国立国语研究所古日语语料库（ONCOJ）的构建始于2011年，最初以“牛津古日语语料库（OCOJ）”的名义进行，直至2017年更名为现名。该语料库是牛津大学与日本国立国语研究所长期合作的成果，旨在创建一个经过词形还原、句法分析和全面注释的古日语诗歌文本数字语料库。语料库的构建得到了英国学术院的支持，并被视为一项重要的学术研究项目。

特点

ONCOJ语料库的特点在于其高度的结构化和多格式兼容性。语料库数据以多种格式存储，包括XML格式的词典数据库、CSV格式的语料数据，以及兼容CorpusSearch的PSD格式文件。此外，语料库中的4991个文本均以TEI兼容的XML文件形式存储，便于研究人员进行深入分析和处理。这种多格式的设计使得语料库能够适应不同的研究需求和分析工具。

使用方法

使用ONCOJ语料库时，研究人员可以通过访问其官方网站获取详细的语料库信息。语料库数据以多种格式提供，用户可以根据需要选择合适的格式进行下载和分析。对于XML格式的词典数据库，可以使用XML解析工具进行数据提取；CSV格式的数据则可以直接导入电子表格程序进行查看和处理。此外，PSD格式的文件适用于CorpusSearch工具，便于进行句法分析和检索。使用语料库时，需遵循Creative Commons Attribution 4.0国际许可协议，并在研究成果中引用语料库。

背景与挑战

背景概述

Oxford NINJAL Corpus of Old Japanese (ONCOJ) 是一个专注于古日语诗歌文本的数字化语料库，自2011年起由牛津大学与日本国立国语研究所（NINJAL）合作开发。该语料库不仅进行了词形还原和句法分析，还提供了全面的注释，旨在为古日语研究提供高质量的文本资源。ONCOJ的创建是英国科学院研究项目的一部分，并在NINJAL的‘历史日语语料库构建与新研究发展’项目中占据重要地位。该语料库的持续开发与研究，为古日语的语言学、文学及历史研究提供了重要的数据支持。

当前挑战

ONCOJ的构建面临多重挑战。首先，古日语诗歌文本的语言结构复杂，且缺乏现代日语的标准化特征，使得词形还原和句法分析的准确性难以保证。其次，文本的数字化处理需要克服古文字识别、断句及注释一致性的技术难题。此外，语料库的长期维护与更新需要跨学科合作，涉及语言学、计算机科学及历史学等多领域的专业知识。这些挑战不仅影响了语料库的构建效率，也对研究人员的跨领域协作能力提出了更高要求。

常用场景

经典使用场景

Oxford NINJAL Corpus of Old Japanese (ONCOJ) 数据集在古典日语诗歌文本的研究中具有重要地位。该数据集通过对古日语时期的诗歌文本进行词形还原、句法分析和全面注释，为研究者提供了一个丰富的数字语料库。其经典使用场景包括古日语语法研究、诗歌文本的句法结构分析以及古日语词汇的历时演变研究。

衍生相关工作

ONCOJ 数据集衍生了许多相关经典工作。例如，基于该数据集的研究成果被广泛应用于古日语语法书的编写和修订。此外，该数据集还促进了古日语与其他历史语言的对比研究，推动了跨语言研究的进展。同时，基于 ONCOJ 的句法标注工具和词汇数据库也为其他古语言研究提供了参考和借鉴。

数据集最近研究