The Tlingit Corpus

github2024-04-28 更新2024-05-31 收录

下载链接：

https://github.com/jcrippen/tlingit-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

The Tlingit Corpus是一个收集了叙事和演讲文本的语言学研究数据集，主要用于研究美国东南阿拉斯加、不列颠哥伦比亚省和育空地区邻近部分的Tlingit语言（Na-Dene语系）。该数据集的文本来自多种已发表和未发表的来源，其中大部分来自Richard和Nora Marks Dauenhauer的工作。

The Tlingit Corpus 是一个专门用于语言学研究的文本数据集，主要聚焦于收集叙事和演讲文本，旨在深入探讨美国东南阿拉斯加、不列颠哥伦比亚省及育空地区邻近区域的 Tlingit 语言（属于 Na-Dene 语系）。该数据集涵盖了多种已发表及未发表的文献资源，其中大部分内容源自 Richard 和 Nora Marks Dauenhauer 的研究成果。

创建时间：

2015-04-07

原始信息汇总

数据集概述

名称: The Tlingit Corpus

目的: 用于研究Tlingit语言（Na-Dene语系）的叙事和演讲文本，主要涵盖美国东南阿拉斯加、不列颠哥伦比亚省和育空地区的语言材料。

内容来源: 数据集包含多种已发表和未发表的文本，主要来源于Richard和Nora Marks Dauenhauer的工作。

数据集结构

最高层级: 数据集按条目组织，每个条目由唯一编号标识。
条目定义: 每个条目代表一个独特的叙事或演讲的转录。
文件组成: 每个条目包含多个文件，文件名以条目编号开头。
- 文件类型:
  - Text: 使用Revised Popular（‘Coastal’）正字法的Tlingit文本。
  - Translation: 叙事或演讲的英文翻译。
  - Original: 如果原始文本使用不同正字法，则提供原始形式的Tlingit文本。
  - Gloss: Tlingit文本的语言分段和注释。

文件格式

基本格式: 每行以Unix风格的换行符LF（Unicode U+000A）结束。
数据和元数据行:
- 数据行: 代表原始出版文本的行，以数字开头，后跟制表符和文本内容。
- 元数据行: 提供关于文本的附加信息，格式为{key = value}。
元数据键: 包括Number, Type, Title, Author, Clan, Source, Transcriber, Translator, Glosser, Orthography, Page, Tags, Note, Comment等。

正字法

使用正字法: 所有Text类型的文件使用现代Revised Popular正字法。
原始正字法: 如果原始出版物使用显著不同的正字法，将提供Original类型的文件。

Unicode使用

编码: 所有文本使用Unicode的UTF-8编码。
特殊字符处理:
- 下划线: 使用U+0331 Combining Macron Below表示uvular音。
- 撇号: 使用U+02BC Modifier Letter Apostrophe表示ejective音。
- 引号: 使用U+201C & U+201D和U+2018 & U+2019表示引号，确保引号成对使用。

搜集汇总

数据集介绍

构建方式

The Tlingit Corpus的构建基于对Tlingit语言（Na-Dene语系）的叙事和演讲文本的系统收集与整理。该数据集主要来源于Richard和Nora Marks Dauenhauer的著作，同时也包括其他已出版和未出版的资源。每个条目由唯一的编号标识，包含至少一个文本文件和一个翻译文件，分别以Revised Popular（RP）正字法记录Tlingit文本和对应的英文翻译。此外，数据集还可能包含原始文本、语言学分段和注释等文件类型，以支持更深入的语言学研究。

特点

The Tlingit Corpus的特点在于其结构化的数据组织方式，每个条目通过唯一的编号进行标识，并包含多种文件类型，如文本、翻译、原始文本和注释等。这种设计不仅便于语言学研究者进行文本分析，还为跨语言比较提供了便利。此外，数据集采用统一的Revised Popular正字法，确保了文本的一致性和可搜索性，同时保留了原始文本的多样性，便于研究者进行对照分析。

使用方法

使用The Tlingit Corpus时，研究者可以根据条目编号访问相应的文本和翻译文件，进行语言学分析或跨语言比较。数据集的文件格式统一，便于自动化处理和分析。研究者可以通过检索特定的元数据（如作者、来源、正字法等）来筛选感兴趣的条目，并利用提供的注释和原始文本文件进行深入的语言学研究。此外，数据集支持Unicode编码，确保了文本的兼容性和可读性，适用于多种文本处理工具和编程环境。

背景与挑战

背景概述

The Tlingit Corpus 是由 Richard 和 Nora Marks Dauenhauer 主导创建的一个专门用于研究特林吉特语（Tlingit language，属于 Na-Dene 语系）的语料库，涵盖了阿拉斯加东南部及邻近的英属哥伦比亚和育空地区的叙事和演讲文本。该语料库的创建旨在为语言学家提供丰富的文本资源，以便深入研究特林吉特语的语音、语法和语义结构。语料库中的文本主要来源于已出版和未出版的资料，尤其是 Dauenhauer 夫妇的著作。通过标准化和结构化的方式，该语料库为特林吉特语的研究提供了坚实的基础，并对相关领域的语言学研究产生了深远的影响。

当前挑战

The Tlingit Corpus 在构建过程中面临了多项挑战。首先，特林吉特语作为一种濒危语言，其语料的收集和整理本身就具有一定的难度，尤其是在确保文本的准确性和完整性方面。其次，语料库的结构化设计需要兼顾语言学研究的多样性需求，如文本的转录、翻译、注释等，这要求在数据格式和元数据设计上保持高度的灵活性和一致性。此外，语料库的跨平台兼容性和Unicode编码的统一性也是构建过程中需要解决的技术难题。最后，随着研究的深入，语料库可能需要不断扩展和更新，如何保持数据的一致性和可扩展性也是一个长期的挑战。

常用场景

经典使用场景

The Tlingit Corpus 作为针对特林吉特语（Tlingit language）的叙事和演讲文本集合，主要用于语言学研究。其经典使用场景包括对特林吉特语的语音、语法和词汇的深入分析，尤其是通过文本和翻译的对比研究，揭示该语言的独特结构和表达方式。此外，该数据集还支持对特林吉特语的正字法（orthography）进行标准化处理，确保语言学研究的一致性和可重复性。

解决学术问题

The Tlingit Corpus 解决了语言学研究中关于特林吉特语的多个学术问题，特别是在语言演变、语音学和语法结构的研究中。通过提供丰富的叙事和演讲文本，该数据集为研究者提供了宝贵的语料库，帮助他们分析特林吉特语的语音变化、词汇使用和语法规则。此外，该数据集的标准化正字法为语言学研究提供了统一的参考标准，推动了特林吉特语研究的深入发展。

衍生相关工作

The Tlingit Corpus 的发布催生了一系列相关的经典工作，特别是在特林吉特语的语言学研究领域。许多研究者利用该数据集进行语音学、语法学和词汇学的深入分析，发表了多篇重要的学术论文。此外，该数据集还激发了对特林吉特语正字法的进一步研究，推动了语言标准化和自动处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集