dead-languages-corpus

github2022-12-23 更新2024-05-31 收录

下载链接：

https://github.com/LingResCtr/dead-languages-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含多种已灭绝印欧语言文本数据的数据集，来自德克萨斯大学奥斯汀分校的语言学研究中心。数据包括散文、诗歌和圣经文本的摘录，涵盖多种语言和历史时期。

A dataset containing text data from various extinct Indo-European languages, sourced from the Linguistics Research Center at the University of Texas at Austin. The data includes excerpts from prose, poetry, and biblical texts, covering multiple languages and historical periods.

创建时间：

2022-12-19

原始信息汇总

数据集概述

数据集名称

名称: dead-languages-corpus
描述: 包含多种已灭绝的印欧语言文本数据，来自德克萨斯大学奥斯汀分校的语言学研究中心（LRC）。

数据集详细信息

数据集摘要

来源: 德克萨斯大学奥斯汀分校语言学研究中心（LRC）
内容: 包含历史印欧语言的数据集，数据来源于原始文档的摘录，包括散文、诗歌和圣经文本。

支持的语言

语言列表: 包括阿尔巴尼亚语、古典亚美尼亚语、波罗的语（立陶宛语和拉脱维亚语）、古英语、古法语、哥特语、古典希腊语和新约希腊语、赫梯语、古伊朗语（阿维斯陀语和古波斯语）、古爱尔兰语、拉丁语、古挪威语、古俄语、吠陀梵语、古教会斯拉夫语、吐火罗语A和吐火罗语B。
BCP-47代码: alb, arm, arm-Armn, bat, ang, fro, got, grc-Grek, hit-Latn, ira, sga, lat, non, rus-Cyrl, san-Latn, chu-Cyrs, xto-Latn, txb-Latn。

数据集结构

存储位置: 数据集位于final目录下。
文件格式: JSON-lines格式，文件名为dlc-<date>-<lang>.jsonl。
数据实例: 每个JSON行代表一个“部分”或一段原始来源材料，包含多个“块”，每个块包含多个“令牌”，代表块中的单词及其英文翻译和词性。

数据字段

Section: 包含系统ID、课程URL、语言、原始HTML和英文HTML等。
Chunk: 包含系统ID、原文本和英文文本（目前硬编码为"TODO"）。
Token: 包含系统ID、原文本、英文翻译和词性列表。
POS: 包含词性及其分析。

数据分割

分割方式: 未分割为训练和验证集，但按语言分割。

数据集创建

来源数据

来源: 来自LRC的Early Indo-European OnLine（EIEOL）语言课程。
初始数据收集: 2022/11/17下载，使用Python 3.10脚本转换为JSON-lines格式。

数据集制作者

原始作者: 包括多位与德克萨斯大学合作的学者。
GitHub发布合作者: Todd Krause, Amanda Krauss, Shayne Miel。

许可证信息

数据: 根据Creative Commons 4.0 Non-Commercial许可。
处理脚本: 根据MIT许可。

贡献者

数据集添加者: @fraglegs。

搜集汇总

数据集介绍

构建方式

该数据集由德克萨斯大学奥斯汀分校语言学研究中心（LRC）构建，旨在将历史印欧语系的文本数据以现代、开源且开发者友好的格式呈现。数据来源于LRC的“早期印欧语在线”项目，涵盖了多种已消亡的印欧语言。初始数据于2022年11月17日下载，并通过Python脚本和Bash脚本将原始数据从数据库转储文件转换为JSON-lines格式，最终存储在`final`目录中。每个语言的数据以独立的JSON-lines文件形式保存，并包含一个汇总所有语言数据的文件。

特点

该数据集涵盖了多种已消亡的印欧语言，如阿尔巴尼亚语、古典亚美尼亚语、古英语、古法语、哥特语等，语言数据来源于原始文献的摘录，包括散文、诗歌和圣经文本。数据以JSON格式存储，每个条目代表一个文本段落，包含原始语言文本、英语翻译、词性标注等丰富信息。数据按语言分类存储，便于研究者按需使用。此外，数据还包含HTML标签，有助于对齐原始文本与翻译文本。

使用方法

该数据集的使用方法较为灵活，用户可以通过访问`final`目录中的JSON-lines文件获取数据。每个文件按语言分类，用户可以选择特定语言的数据文件，或使用汇总所有语言数据的文件。数据中的每个条目包含原始文本、翻译文本、词性标注等信息，适用于自然语言处理任务，如机器翻译、词性标注和历史语言学研究。用户可以通过运行提供的Python脚本对数据进行进一步处理或转换。

背景与挑战

背景概述

dead-languages-corpus数据集由德克萨斯大学奥斯汀分校语言学研究中心（LRC）创建，旨在收集和整理一系列已消亡的印欧语系语言文本。该数据集涵盖了阿尔巴尼亚语、古典亚美尼亚语、波罗的海语、古英语、古法语、哥特语等多种语言，主要来源于原始文献中的散文、诗歌和圣经文本。这些文本不仅为语言学家提供了研究古代语言结构和演变的宝贵资源，也为自然语言处理（NLP）领域的研究者提供了丰富的语料库。该数据集的创建时间可追溯至2022年11月，由Todd Krause等学者主导，旨在将LRC的历史语言数据以现代、开源的形式呈现，便于开发者使用。

当前挑战

dead-languages-corpus数据集在构建和应用过程中面临多重挑战。首先，由于这些语言已消亡，文本的获取和整理极为困难，尤其是在确保文本的准确性和完整性方面。其次，数据集中部分文本的句子边界不明确，导致在NLP任务中难以进行精确的分词和句法分析。此外，古代语言的词性和语法结构与现代语言存在显著差异，如何准确标注词性和语法信息成为一大难题。最后，数据集的构建依赖于人工整理和标注，这一过程耗时且容易引入主观偏差，进一步增加了数据处理的复杂性。这些挑战不仅影响了数据集的构建质量，也限制了其在NLP任务中的广泛应用。

常用场景

经典使用场景

dead-languages-corpus数据集在历史语言学研究中具有重要应用，尤其是在对已消亡的印欧语系语言进行文本分析和比较研究时。该数据集包含了多种古代语言的文本片段，如古典亚美尼亚语、古英语、古法语、哥特语等，这些文本涵盖了散文、诗歌和圣经文本等多种文体。研究者可以利用这些数据进行语言演变、语法结构、词汇变化等方面的深入分析。

解决学术问题

该数据集为历史语言学和计算语言学领域的研究者提供了丰富的语言资源，解决了在缺乏原始文本数据的情况下难以进行语言比较和演变研究的难题。通过提供多种古代语言的文本及其英文翻译，研究者可以更准确地分析语言之间的相似性和差异性，进而揭示语言演变的规律。此外，数据集中的词性标注和语法分析信息也为自然语言处理任务提供了重要的基础数据。

衍生相关工作

基于dead-languages-corpus数据集，研究者已经开展了一系列相关研究，包括古代语言的语法分析、词汇演变研究以及跨语言文本对齐等。例如，一些研究利用该数据集中的词性标注信息，开发了针对古代语言的自动语法分析工具。此外，该数据集还被用于构建多语言语料库，支持跨语言的文本比较和翻译研究，推动了历史语言学和计算语言学的交叉领域发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集