thesaurus-linguae-aegyptiae/tla-demotic-v18-premium
收藏Hugging Face2024-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thesaurus-linguae-aegyptiae/tla-demotic-v18-premium
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含古埃及语(Demotic)句子的转写、词形还原、词性标注、注释和德语翻译。数据来源于Thesaurus Linguae Aegyptiae数据库的第18版语料库,仅包含完整且明确可读的句子(13,383条句子)。数据集适用于训练翻译模型和词形还原器,但不适用于重建古代源文本。
该数据集包含古埃及语(Demotic)句子的转写、词形还原、词性标注、注释和德语翻译。数据来源于Thesaurus Linguae Aegyptiae数据库的第18版语料库,仅包含完整且明确可读的句子(13,383条句子)。数据集适用于训练翻译模型和词形还原器,但不适用于重建古代源文本。
提供机构:
thesaurus-linguae-aegyptiae
原始信息汇总
数据集概述
数据集描述
- 名称: Thesaurus Linguae Aegyptiae, Demotic sentences, corpus v18, premium
- 标注创建者: 专家生成
- 许可: CC BY-SA 4.0
- 任务类别: 翻译、词性标注
- 语言: 埃及语(egy)、德语(de)
- 多语言性: 多语言
- 大小类别: 10K<n<100K
数据集结构
特征
- transliteration: 字符串,埃及语转写
- lemmatization: 字符串,词形还原
- UPOS: 字符串,通用词性标签
- glossing: 字符串,词义标注
- translation: 字符串,德语翻译
- dateNotBefore: 字符串,文本见证的最早日期
- dateNotAfter: 字符串,文本见证的最晚日期
- authors: 字符串,主要作者和贡献者
数据分割
- 训练集: 13383个样本
数据实例
json { "transliteration": "ꞽy ꞽh pr =k", "lemmatization": "d338|ꞽy d4158|ḥr d1985|pr d6496|=k", "UPOS": "VERB ADP NOUN PRON", "glossing": "V PREP N.m -2sg.m", "translation": "Komm in dein Haus!", "dateNotBefore": "-75", "dateNotAfter": "-51", "authors": "Günter Vittmann;AV Altägyptisches Wörterbuch, AV Wortschatz der ägyptischen Sprache" }
数据集创建
筛选理由
该数据集仅包含完整、无争议、完全词形还原的句子,以满足机器学习项目对原始数据的需求。
源数据
数据集包含来自TLA语料库v18(2023)的所有埃及语句子,这些句子满足以下条件:
- 无破坏
- 无可疑读音
- 完全词形还原
- 有德语翻译
标注过程
转写中有时包含圆括号(( )),表示编辑添加的音素,这些括号及其内容在模型训练时可选择性移除。
标注者
Joachim Friedrich Quack, Marcel Moser, Simon D. Schweitzer, Martin Stadler, Günter Vittmann, Daniel A. Werning
偏差、风险和限制
该数据集并非精心平衡的数据集,词形还原通过词形ID进行,因为词形转写中包含许多因埃及语无音素特性而产生的同音字。



