ETCSANS

github2022-12-30 更新2024-05-31 收录

下载链接：

https://github.com/cdli-gh/ETCSANS

下载链接

链接失效反馈

官方服务：

资源简介：

ETCSANS是一个新苏美尔语的语法标注电子文本语料库，旨在通过创新的标注工作流程，提供对苏美尔文本的语法分析，以改善对这些文本的访问，不仅面向更广泛的受众，也面向机器。该语料库是机器翻译和自动标注楔形文字语言项目（MTAAC）的成果，由多所大学合作完成，主要用于研究新苏美尔时期（公元前2100-2000年）的经济和社会。

ETCSANS is an electronically annotated corpus of Neo-Sumerian grammar, designed to provide grammatical analysis of Sumerian texts through an innovative annotation workflow, thereby improving access to these texts not only for a broader audience but also for machines. This corpus is a product of the Machine Translation and Automated Analysis of Cuneiform Languages project (MTAAC), a collaborative effort among several universities, primarily used for research into the economy and society of the Neo-Sumerian period (2100-2000 BCE).

创建时间：

2021-12-04

原始信息汇总

数据集概述：电子文本语料库的句法标注新苏美尔语（ETCSANS）

数据集描述

名称：电子文本语料库的句法标注新苏美尔语（ETCSANS）
目的：提供新苏美尔时期（公元前2100-2000年）经济和社会研究的工具。
特点：首个提供句法标注的苏美尔语文本数据集，填补了句法和语义分析资源的空白。
合作机构：多伦多大学、法兰克福歌德大学和加州大学洛杉矶分校。
项目背景：作为CDLI和MTAAC项目的一部分，旨在改善对苏美尔文本的访问。

数据集内容

核心语料库：包含24,460个句法标注文本，覆盖约22%的新苏美尔文本数据。
子语料库：
- 交易子语料库：22,276文本，1,742,634词。
- 平行子语料库：1,572文本，46,321词。
- 皇家子语料库：612文本，9,133词。
扩展语料库：包含47,476文本，1,775,582词，提供自动形态学和命名实体标注。

数据集使用

句法标注：主要基于手动标注或翻译，依赖于Universal Dependencies模型。
未来计划：计划通过CDLI进行众包审核过程，以改进和验证标注。

已知问题

版本0.1/扩展：从形态学格式转换为句法格式，运行标注器。
版本0.1/核心：交易子语料库仅提供部分标注，需补充基于形态学的预标注。
皇家子语料库：包含来自ETCSRI语料库的形态学标注，存在转录和分词差异。

历史版本

v.0.1a：2021年12月8日，初始转换交易子语料库。
v.0.1：2021年12月4日，整合语料库仓库。

支持与资助

资助：MTAAC项目。
学生支持：GSoC。
部分支持：LiODi。

搜集汇总

数据集介绍

构建方式

ETCSANS数据集的构建基于一个创新的注释工作流程，旨在为苏美尔语提供首个句法注释语料库。该数据集是三边项目“楔形文字语言的机器翻译与自动注释”（MTAAC）的成果，由多伦多大学、法兰克福歌德大学和加州大学洛杉矶分校合作完成。数据集的核心语料库包含24,460个句法注释文本，覆盖了约22%的新苏美尔时期文本数据。注释工作主要依赖于半自动化的方式，通过领域特性、注释投影和现有形态注释进行引导。

特点

ETCSANS数据集的特点在于其首次为苏美尔语提供了句法注释，填补了现有资源在句法和语义分析方面的空白。数据集遵循通用依存关系（UD）模型，采用跨语言适用的依存标签，并面向语义进行句法分析。核心语料库分为三个子集：交易子集、平行子集和皇家子集，分别基于领域特性、注释投影和现有形态注释进行构建。此外，扩展语料库包含47,476个文本，提供了自动化的形态和命名实体注释。

使用方法

ETCSANS数据集的使用方法主要面向研究新苏美尔时期经济与社会的学者。用户可以通过数据集提供的句法注释进行具体的语言学研究，尤其是句法结构和语义分析。数据集还计划通过CDLI平台进行众包注释的改进与验证，以提高注释的准确性。相关工具和资源可在数据集提供的`tools/`文件夹中找到，便于用户进行进一步的分析和应用。

背景与挑战

背景概述

ETCSANS（Electronic Text Corpus of Syntactically Annotated Neo-Sumerian）数据集是研究新苏美尔时期（公元前2100-2000年）经济与社会的重要工具，由多伦多大学、法兰克福歌德大学和加州大学洛杉矶分校合作开发。该数据集是‘楔形文字语言机器翻译与自动注释’（MTAAC）项目的成果，旨在填补苏美尔语文本在句法注释方面的空白。ETCSANS通过创新的注释工作流程，首次为新苏美尔文本提供了句法注释，并采用了通用依存（Universal Dependencies）模型，以支持跨语言的句法分析。该数据集包含24,460篇句法注释文本，覆盖了新苏美尔文本总量的22%，为研究苏美尔语言和文化提供了重要的数字化资源。

当前挑战

ETCSANS数据集在构建过程中面临多重挑战。首先，苏美尔语的复杂书写系统和语言特性使得手动注释主要集中在形态学层面，而句法注释则依赖于翻译和自动化工具，导致注释的准确性和一致性难以完全保证。其次，尽管ETCSANS通过半自动化方式扩展了注释范围，但其核心语料库的句法注释仍依赖于手动或翻译生成，这在高专业要求的背景下不可避免。此外，数据集中的部分子语料库（如皇家子语料库）存在注释投影问题，可能导致注释错误。未来，通过众包流程改进和验证注释将是解决这些挑战的关键方向。

常用场景

经典使用场景

ETCSANS数据集在语言学研究中扮演着重要角色，特别是在古代苏美尔语的句法分析领域。该数据集通过提供大量经过句法标注的文本，为研究者提供了深入分析苏美尔语句法结构的宝贵资源。经典使用场景包括对苏美尔语文本的句法树构建、句法规则提取以及跨语言句法对比研究。这些研究不仅有助于理解苏美尔语的句法特征，还为其他古代语言的句法研究提供了参考。

实际应用

ETCSANS数据集的实际应用场景广泛，涵盖了从历史语言学、古代社会研究到机器翻译等多个领域。在历史语言学中，该数据集可用于重建古代苏美尔语的句法体系，揭示其语言演变规律。在古代社会研究中，ETCSANS的文本内容为研究新苏美尔时期的经济和社会结构提供了重要线索。此外，该数据集还为开发苏美尔语与其他语言的机器翻译系统提供了基础数据支持。

衍生相关工作

ETCSANS数据集催生了一系列相关研究，特别是在古代语言处理和跨语言句法分析领域。基于该数据集的研究工作包括苏美尔语句法规则的自动提取、古代文本的语义分析以及跨语言句法对比研究。此外，ETCSANS还为其他古代语言的句法标注项目提供了参考，推动了古代语言处理技术的发展。这些衍生工作不仅丰富了苏美尔语研究的学术成果，还为其他古代语言的研究提供了方法论上的借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集