five

phiwi/bbaw_egyptian

收藏
Hugging Face2024-01-10 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/phiwi/bbaw_egyptian
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了古埃及象形文字的并行句子,包括象形文字编码、转写和翻译,这些数据来源于论文《Multi-Task Modeling of Phonographic Languages: Translating Middle Egyptian Hieroglyph》。数据集是从柏林-勃兰登堡科学院的项目“Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache”中提取的,该项目正在编制一个广泛注释的埃及文本数字语料库。数据集包含100,708个翻译三元组,其中35,503个包含象形文字编码,其余65,205个三元组的象形文字字段为空。数据集未划分为训练、开发和测试集,鼓励科学家根据需要使用自定义的分区方案。

该数据集包含了古埃及象形文字的并行句子,包括象形文字编码、转写和翻译,这些数据来源于论文《Multi-Task Modeling of Phonographic Languages: Translating Middle Egyptian Hieroglyph》。数据集是从柏林-勃兰登堡科学院的项目“Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache”中提取的,该项目正在编制一个广泛注释的埃及文本数字语料库。数据集包含100,708个翻译三元组,其中35,503个包含象形文字编码,其余65,205个三元组的象形文字字段为空。数据集未划分为训练、开发和测试集,鼓励科学家根据需要使用自定义的分区方案。
提供机构:
phiwi
原始信息汇总

数据集概述

名称: BBAW, Thesaurus Linguae Aegyptiae, Ancient Egyptian (2018)

语言: 埃及语(egy)、德语(de)、英语(en)

许可证: CC BY-SA 4.0

多语言性: 多语言

大小: 100K<n<1M

来源数据集: 扩展自wikipedia

任务类别: 翻译

数据集结构

特征:

  • transcription: 字符串类型
  • translation: 字符串类型
  • hieroglyphs: 字符串类型

数据分割:

  • train: 100736个实例,数据大小18533905字节

数据集创建

注释创建者: 专家生成

源数据: 来自项目"Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache",该项目正在编译一个广泛注释的埃及文本数字文库。

注释过程: 数据集未进行预处理,鼓励每位科学家根据自己的需求准备数据集。包含的文本批评符号如下:

  • (): 缺陷
  • []: 丢失
  • {}: 过剩
  • 〈〉: 省略
  • ⸢⸣: 损坏
  • ⸮?: 不清晰
  • {{}}: 擦除
  • (()): 上方
  • [[]]: 重叠
  • 〈〈〉〉: 单字省略

注释者: AV Altägyptisches Wörterbuch, AV Wortschatz der ägyptischen Sprache 等专家团队。

许可证信息

CC BY-SA 4.0 Deed Attribution-ShareAlike 4.0 International https://creativecommons.org/licenses/by-sa/4.0/

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作