colesimmons/SumTablets
收藏Hugging Face2024-07-05 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/colesimmons/SumTablets
下载链接
链接失效反馈官方服务:
资源简介:
SumTablets数据集包含91,606个苏美尔楔形文字板的字形-转写对。数据集按时期和类型进行了分类,并提供了训练集、验证集和测试集的数量分布。数据集的任务类别包括翻译、文本分类和零样本分类,标签涉及苏美尔文化。
SumTablets is a dataset of 91,606 Sumerian cuneiform tablets, structured as glyph--transliteration pairs. The dataset is categorized by period and genre, with distributions provided for training, validation, and test sets. The task categories include translation, text-classification, and zero-shot classification, with tags related to Sumerian culture.
提供机构:
colesimmons
原始信息汇总
SumTablets
SumTablets是一个包含91,606块苏美尔楔形文字泥板的语料库,结构为字形-音译对。
组成(时期)
| 时期 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| Ur III | 71,116 | 3,951 | 3,951 |
| 古阿卡德 | 4,766 | 265 | 265 |
| 早王朝IIIb | 3,467 | 192 | 192 |
| 古巴比伦 | 1,374 | 73 | 73 |
| 拉加什II | 788 | 44 | 44 |
| 早王朝IIIa | 755 | 42 | 42 |
| 早王朝I-II | 77 | 4 | 4 |
| 未知 | 68 | 4 | 4 |
| 新亚述 | 20 | 1 | 1 |
| 新巴比伦 | 14 | 1 | 1 |
| 中巴比伦 | 7 | 0 | 0 |
| 总计 | 82,452 | 4,577 | 4,577 |
组成(体裁)
| 体裁 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| 行政 | 77,193 | 4,259 | 4,291 |
| 皇家铭文 | 2,611 | 151 | 146 |
| 文学 | 1,000 | 63 | 62 |
| 信件 | 718 | 48 | 33 |
| 法律 | 544 | 35 | 36 |
| 未知 | 269 | 14 | 7 |
| 词典 | 69 | 0 | 0 |
| 礼仪 | 40 | 4 | 1 |
| 数学/科学 | 8 | 3 | 1 |
| 总计 | 82,452 | 4,577 | 4,577 |



