MTAAC Gold Corpus

github2021-12-15 更新2024-05-31 收录

下载链接：

https://github.com/cdli-gh/mtaac_gold_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含MTAAC项目的注释黄金语料库，截至2020年11月21日，包含15,502个标记（372个文本）的手动形态学注释，以及9,075个标记（610个文本）的自动形态学注释，这些数据集平衡了不同体裁，并从Ur III语料库中提取。

This repository contains the annotated gold corpus for the MTAAC project, as of November 21, 2020, including manual morphological annotations for 15,502 tokens (372 texts) and automatic morphological annotations for 9,075 tokens (610 texts). These datasets are balanced across different genres and extracted from the Ur III corpus.

创建时间：

2018-03-08

原始信息汇总

MTAAC Gold Corpus 概述

数据集内容

Ur III 语料库：包含15,502个标记（372个文本），这些文本具有形态学注释，由MTAAC项目手动注释，涵盖多种体裁。
自动注释的 Ur III 语料库：包含9,075个标记（610个文本），这些文本的注释是从ETCSR I语料库自动派生而来，体裁为皇家铭文。

许可证

数据集遵循CC0许可证，版权及相关权利已放弃，数据集内容向公众开放。

引用信息

MTAAC项目：在学术环境中使用此数据时，必须引用贡献者（见CONTRIBUTORS.txt）。
科学论文引用：请参考Chiarcos等人（2018）的文章：Annotating a Low-Resource Language with LLOD Technology: Sumerian Morphology and Syntax. Information 9(11): 290.
ETCSR I语料库：如果使用morph/external目录中的数据，请同时引用ETCSR I的原创建者。

数据集历史

2020/11/21：添加了包含基于ETCSR I注释的外部文件夹。
2018/03/07：初始版本发布。

搜集汇总

数据集介绍

构建方式

MTAAC Gold Corpus的构建基于对乌尔第三王朝时期文献的深入分析与标注。该数据集包含了来自MTAAC项目的手动形态学标注的15,502个标记（372篇文本），以及从ETSCRI语料库自动衍生的9,075个标记（610篇文本）。这些文本经过精心挑选，以确保涵盖不同体裁的文献，从而为研究者提供了一个全面且多样化的研究平台。

使用方法

使用MTAAC Gold Corpus时，研究者可以通过访问GitHub仓库获取数据集，并遵循CC0许可协议进行自由使用。在学术研究中引用该数据集时，需按照README文件中的引用指南，引用相关作者和文献。此外，对于使用`morph/external`目录中的数据，还需特别注明ETCSRI语料库的原始创建者。数据集的使用方法包括但不限于形态学分析、句法研究以及低资源语言的标注技术研究。

背景与挑战

背景概述

MTAAC Gold Corpus是由MTAAC项目组创建的一个古苏美尔语形态学标注语料库，旨在为低资源语言的形态学和句法研究提供高质量的数据支持。该语料库于2018年首次发布，主要研究人员包括Chiarcos、Khait、Pagé-Perron等，其核心研究问题集中在如何利用链接开放数据（LLOD）技术对苏美尔语进行形态和句法标注。该数据集不仅为苏美尔语研究提供了宝贵的资源，还推动了低资源语言处理技术的发展，尤其在古语言学和计算语言学领域产生了深远影响。

当前挑战

MTAAC Gold Corpus在构建过程中面临了多重挑战。首先，苏美尔语作为一种低资源语言，其语言结构和形态学特征复杂且缺乏现代语言处理工具的支持，这为数据标注和解析带来了巨大困难。其次，数据集的构建依赖于多源数据的整合，包括手动标注的Ur III语料和从ETCSRI语料库自动推导的标注数据，这导致了标签集一致性问题，例如`NF.V.SUB`与`NF.V.PT`的标签不一致性。此外，如何在不同语料之间实现平衡，尤其是确保不同文本类型的代表性，也是数据集构建中的一大挑战。

常用场景

经典使用场景

MTAAC Gold Corpus 数据集在古苏美尔语研究中扮演着重要角色，尤其是在形态学和句法分析领域。该数据集包含了大量来自乌尔第三王朝时期的文本，涵盖了不同文体的平衡样本，为研究者提供了丰富的语言数据。通过手动和自动标注的结合，该数据集能够支持对苏美尔语形态变化的深入分析，并为低资源语言的标注技术提供了宝贵的实验平台。

解决学术问题

MTAAC Gold Corpus 解决了古苏美尔语研究中数据稀缺和标注不一致的问题。通过提供高质量的形态学标注数据，该数据集为语言学家和计算语言学家提供了可靠的研究基础。特别是在低资源语言的自动化标注技术开发中，该数据集为验证和改进算法提供了重要的实验数据，推动了古语言研究的技术进步。

实际应用

在实际应用中，MTAAC Gold Corpus 被广泛用于古苏美尔语的数字化保存和语言学研究。该数据集不仅支持学术研究，还为文化遗产的数字化保护提供了技术基础。通过结合现代计算技术，研究者可以利用该数据集开发自动化工具，用于古文献的翻译、分析和解释，从而促进对古代文明的深入理解。

数据集最近研究