five

colesimmons/SumTablets

收藏
Hugging Face2024-07-05 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/colesimmons/SumTablets
下载链接
链接失效反馈
官方服务:
资源简介:
SumTablets数据集包含91,606个苏美尔楔形文字板的字形-转写对。数据集按时期和类型进行了分类,并提供了训练集、验证集和测试集的数量分布。数据集的任务类别包括翻译、文本分类和零样本分类,标签涉及苏美尔文化。

SumTablets is a dataset of 91,606 Sumerian cuneiform tablets, structured as glyph--transliteration pairs. The dataset is categorized by period and genre, with distributions provided for training, validation, and test sets. The task categories include translation, text-classification, and zero-shot classification, with tags related to Sumerian culture.
提供机构:
colesimmons
原始信息汇总

SumTablets

SumTablets是一个包含91,606块苏美尔楔形文字泥板的语料库,结构为字形-音译对。

组成(时期)

时期 训练集 验证集 测试集
Ur III 71,116 3,951 3,951
古阿卡德 4,766 265 265
早王朝IIIb 3,467 192 192
古巴比伦 1,374 73 73
拉加什II 788 44 44
早王朝IIIa 755 42 42
早王朝I-II 77 4 4
未知 68 4 4
新亚述 20 1 1
新巴比伦 14 1 1
中巴比伦 7 0 0
总计 82,452 4,577 4,577

组成(体裁)

体裁 训练集 验证集 测试集
行政 77,193 4,259 4,291
皇家铭文 2,611 151 146
文学 1,000 63 62
信件 718 48 33
法律 544 35 36
未知 269 14 7
词典 69 0 0
礼仪 40 4 1
数学/科学 8 3 1
总计 82,452 4,577 4,577
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作