phiwi/bbaw_egyptian
收藏Hugging Face2024-01-10 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/phiwi/bbaw_egyptian
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了古埃及象形文字的并行句子,包括象形文字编码、转写和翻译,这些数据来源于论文《Multi-Task Modeling of Phonographic Languages: Translating Middle Egyptian Hieroglyph》。数据集是从柏林-勃兰登堡科学院的项目“Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache”中提取的,该项目正在编制一个广泛注释的埃及文本数字语料库。数据集包含100,708个翻译三元组,其中35,503个包含象形文字编码,其余65,205个三元组的象形文字字段为空。数据集未划分为训练、开发和测试集,鼓励科学家根据需要使用自定义的分区方案。
该数据集包含了古埃及象形文字的并行句子,包括象形文字编码、转写和翻译,这些数据来源于论文《Multi-Task Modeling of Phonographic Languages: Translating Middle Egyptian Hieroglyph》。数据集是从柏林-勃兰登堡科学院的项目“Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache”中提取的,该项目正在编制一个广泛注释的埃及文本数字语料库。数据集包含100,708个翻译三元组,其中35,503个包含象形文字编码,其余65,205个三元组的象形文字字段为空。数据集未划分为训练、开发和测试集,鼓励科学家根据需要使用自定义的分区方案。
提供机构:
phiwi
原始信息汇总
数据集概述
名称: BBAW, Thesaurus Linguae Aegyptiae, Ancient Egyptian (2018)
语言: 埃及语(egy)、德语(de)、英语(en)
许可证: CC BY-SA 4.0
多语言性: 多语言
大小: 100K<n<1M
来源数据集: 扩展自wikipedia
任务类别: 翻译
数据集结构
特征:
- transcription: 字符串类型
- translation: 字符串类型
- hieroglyphs: 字符串类型
数据分割:
- train: 100736个实例,数据大小18533905字节
数据集创建
注释创建者: 专家生成
源数据: 来自项目"Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache",该项目正在编译一个广泛注释的埃及文本数字文库。
注释过程: 数据集未进行预处理,鼓励每位科学家根据自己的需求准备数据集。包含的文本批评符号如下:
(): 缺陷[]: 丢失{}: 过剩〈〉: 省略⸢⸣: 损坏⸮?: 不清晰{{}}: 擦除(()): 上方[[]]: 重叠〈〈〉〉: 单字省略
注释者: AV Altägyptisches Wörterbuch, AV Wortschatz der ägyptischen Sprache 等专家团队。
许可证信息
CC BY-SA 4.0 Deed Attribution-ShareAlike 4.0 International https://creativecommons.org/licenses/by-sa/4.0/



