ORAEC corpus

github2023-07-21 更新2024-05-31 收录

下载链接：

https://github.com/oraec/corpus_raw_data

下载链接

链接失效反馈

官方服务：

资源简介：

ORAEC语料库的原始数据，包含多种文件类型，如映射文件、层次路径文件和大量JSON文件，涉及多个作者和来源，主要用于埃及语言词汇的研究和分析。

The raw data of the ORAEC corpus includes various file types such as mapping files, hierarchical path files, and a large number of JSON files. It involves multiple authors and sources, primarily used for the study and analysis of Egyptian language vocabulary.

创建时间：

2022-10-27

原始信息汇总

数据集概述

文件信息

文件名	许可证	作者	来源
mapping_oraec_lemmata_vega.tsv	cc-by-sa-4.0	Altägyptisches Wörterbuch, Sophie Diepold, Peter Dils, Emilia Mammola, Simon D. Schweitzer, Lisa Seelau, Andrea Sinclair, Jonas Treptow, Veronica Zampedri	TLA
mapping_oraec_trismegistos.csv	cc0	ORAEC
mapping_oraec_wikidata.tsv	cc0	ORAEC
oraec_hierarchical_path.tsv	cc-by-sa-4.0	Burkhard Backes, Susanne Beck, Marc Brose, Adelheid Burkhardt, Roberto A. Díaz Hernández, Peter Dils, Roland Enmarch, Frank Feder, Heinz Felber, Silke Grallert, Stefan Grunert, Ingelore Hafemann, Anne Herzberg, John M. Iskander, Ines Köhler, Renata Landgrafova, Verena Lepper, Lutz Popko, Alexander Schütze, Stephan Seidlmayer, Gunnar Sperveslage, Susanne Töpfer, Doris Topmann, Altägyptisches Wörterbuch	Teilauszug der Datenbank des Vorhabens "Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache" vom Januar 2018
oraec1.json .. oraec13026.json	cc-by-sa-4.0	Burkhard Backes, Susanne Beck, Marc Brose, Adelheid Burkhardt, Roberto A. Díaz Hernández, Peter Dils, Roland Enmarch, Frank Feder, Heinz Felber, Silke Grallert, Stefan Grunert, Ingelore Hafemann, Anne Herzberg, John M. Iskander, Ines Köhler, Renata Landgrafova, Verena Lepper, Lutz Popko, Alexander Schütze, Stephan Seidlmayer, Gunnar Sperveslage, Susanne Töpfer, Doris Topmann, Altägyptisches Wörterbuch	AED, AES
all files in FOLDER collocation	cc0	ORAEC
all files in FOLDER statistics	cc0	ORAEC

搜集汇总

数据集介绍

构建方式

ORAEC语料库的构建依托于多个权威来源，包括TLA（Thesaurus Linguae Aegyptiae）和AED（Altägyptisches Wörterbuch）等。数据通过多个文件格式（如TSV、CSV、JSON）进行组织，涵盖了从词汇映射到层级路径的多种信息。这些数据由多个领域的专家团队共同整理，确保了数据的多样性和权威性。

特点

ORAEC语料库的特点在于其广泛的数据覆盖范围和多样化的数据格式。它不仅包含了古埃及语言的词汇映射，还提供了详细的层级路径信息，便于研究者进行深入的语义分析。此外，数据集中的文件均采用开放许可协议（如CC-BY-SA-4.0和CC0），确保了数据的可访问性和可重用性。

使用方法

使用ORAEC语料库时，研究者可以通过解析TSV、CSV或JSON格式的文件，获取古埃及语言的词汇映射和层级路径信息。数据集中的统计文件和共现文件为语言学研究提供了丰富的定量分析工具。通过结合TLA和AED等外部资源，用户可以进一步扩展数据集的应用范围，进行跨领域的语言学研究。

背景与挑战

背景概述

ORAEC语料库是一个专注于古埃及语言研究的开放数据集，由多个研究机构和学者共同创建，主要贡献者包括Altägyptisches Wörterbuch团队以及众多古埃及学领域的专家。该数据集的核心研究问题在于通过系统化的数据整理与分析，揭示古埃及语言的词汇、句法及语义结构，进而推动古埃及文献的数字化与语义化研究。ORAEC语料库的创建时间可追溯至2018年，其数据来源包括TLA（Thesaurus Linguae Aegyptiae）等权威数据库，为古埃及语言学研究提供了重要的数据支持。该数据集的影响力不仅体现在其学术价值上，还在于其开放共享的特性，促进了全球范围内古埃及学研究的协作与创新。

当前挑战

ORAEC语料库在解决古埃及语言学研究中的挑战方面具有重要意义，但其构建与应用过程中仍面临诸多难题。首先，古埃及语言的复杂性使得数据标注与语义解析成为一项艰巨任务，尤其是在处理象形文字与现代语言之间的映射关系时，需要高度的专业知识与跨学科协作。其次，数据来源的多样性与异构性增加了数据整合的难度，如何确保不同来源数据的一致性与准确性是构建过程中的核心挑战。此外，古埃及文献的数字化与语义化研究仍处于起步阶段，如何利用现代技术手段（如自然语言处理与机器学习）进一步提升数据集的可用性与研究价值，是未来需要解决的关键问题。

常用场景

经典使用场景

ORAEC corpus数据集在古埃及语言学研究领域具有重要地位，其经典使用场景包括对古埃及象形文字的词汇、语法和语义进行系统分析。研究者通过该数据集能够深入探讨古埃及文献中的语言结构，揭示古代文本的复杂性和多样性。

衍生相关工作

ORAEC corpus的发布催生了一系列相关研究，包括基于该数据集的古埃及语言自动分析工具的开发、跨语言比较研究以及古埃及文献的语义网络构建。这些工作不仅扩展了数据集的应用范围，还为古埃及语言学的多学科交叉研究提供了新的视角和方法。

数据集最近研究