five

thesaurus-linguae-aegyptiae/tla-demotic-v18-premium

收藏
Hugging Face2024-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thesaurus-linguae-aegyptiae/tla-demotic-v18-premium
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含古埃及语(Demotic)句子的转写、词形还原、词性标注、注释和德语翻译。数据来源于Thesaurus Linguae Aegyptiae数据库的第18版语料库,仅包含完整且明确可读的句子(13,383条句子)。数据集适用于训练翻译模型和词形还原器,但不适用于重建古代源文本。

该数据集包含古埃及语(Demotic)句子的转写、词形还原、词性标注、注释和德语翻译。数据来源于Thesaurus Linguae Aegyptiae数据库的第18版语料库,仅包含完整且明确可读的句子(13,383条句子)。数据集适用于训练翻译模型和词形还原器,但不适用于重建古代源文本。
提供机构:
thesaurus-linguae-aegyptiae
原始信息汇总

数据集概述

数据集描述

  • 名称: Thesaurus Linguae Aegyptiae, Demotic sentences, corpus v18, premium
  • 标注创建者: 专家生成
  • 许可: CC BY-SA 4.0
  • 任务类别: 翻译、词性标注
  • 语言: 埃及语(egy)、德语(de)
  • 多语言性: 多语言
  • 大小类别: 10K<n<100K

数据集结构

特征

  • transliteration: 字符串,埃及语转写
  • lemmatization: 字符串,词形还原
  • UPOS: 字符串,通用词性标签
  • glossing: 字符串,词义标注
  • translation: 字符串,德语翻译
  • dateNotBefore: 字符串,文本见证的最早日期
  • dateNotAfter: 字符串,文本见证的最晚日期
  • authors: 字符串,主要作者和贡献者

数据分割

  • 训练集: 13383个样本

数据实例

json { "transliteration": "ꞽy ꞽh pr =k", "lemmatization": "d338|ꞽy d4158|ḥr d1985|pr d6496|=k", "UPOS": "VERB ADP NOUN PRON", "glossing": "V PREP N.m -2sg.m", "translation": "Komm in dein Haus!", "dateNotBefore": "-75", "dateNotAfter": "-51", "authors": "Günter Vittmann;AV Altägyptisches Wörterbuch, AV Wortschatz der ägyptischen Sprache" }

数据集创建

筛选理由

该数据集仅包含完整、无争议、完全词形还原的句子,以满足机器学习项目对原始数据的需求。

源数据

数据集包含来自TLA语料库v18(2023)的所有埃及语句子,这些句子满足以下条件:

  • 无破坏
  • 无可疑读音
  • 完全词形还原
  • 有德语翻译

标注过程

转写中有时包含圆括号(( )),表示编辑添加的音素,这些括号及其内容在模型训练时可选择性移除。

标注者

Joachim Friedrich Quack, Marcel Moser, Simon D. Schweitzer, Martin Stadler, Günter Vittmann, Daniel A. Werning

偏差、风险和限制

该数据集并非精心平衡的数据集,词形还原通过词形ID进行,因为词形转写中包含许多因埃及语无音素特性而产生的同音字。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作