cuneiform sign detection dataset

github2024-03-07 更新2024-05-31 收录

下载链接：

https://github.com/CompVis/cuneiform-sign-detection-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于超过1800块泥板的图像，包含超过3000个视图段（泥板刻写面）及其对应的转录。提供了81块泥板的边界框注释，总计8109个注释符号，涵盖186个符号类别。数据集主要关注新亚述时期的楔形文字书写（约公元前900年至公元前600年），由于该时期文本的丰富性和楔形文字书写的标准化。数据集的泥板图像及其转录主要来自两个不同的来源：*国家亚述档案在线*（SAAo）和*楔形文字数字图书馆倡议*（cdli）。

This dataset is based on images of over 1,800 clay tablets, encompassing more than 3,000 view segments (inscribed surfaces of the tablets) along with their corresponding transcriptions. It provides bounding box annotations for 81 tablets, totaling 8,109 annotated symbols across 186 symbol categories. The dataset primarily focuses on cuneiform writing from the Neo-Assyrian period (approximately 900 BC to 600 BC), due to the richness of texts and the standardization of cuneiform script during this era. The images of the tablets and their transcriptions in the dataset are mainly sourced from two distinct repositories: the *State Archives of Assyria online* (SAAo) and the *Cuneiform Digital Library Initiative* (cdli).

创建时间：

2020-11-19

原始信息汇总

数据集概述

数据集名称

cuneiform-sign-detection-dataset

数据集来源

该数据集基于Neo-Assyrian epoch的泥板，主要来源于以下两个资源：

State Archives of Assyria online (SAAo)
Cuneiform Digital Library Initiative (cdli)

数据集内容

数据集包含超过1800块泥板的图像，超过3000个视图段（泥板刻有文字的一面）及其对应的转写。其中，81块泥板上的8109个楔形文字符号被标注，涵盖186个符号类别。

数据集组织

数据集分为10个集合，其中8个来自SAAo，2个为自定义集合：

saa01, saa05, saa06, saa08, saa09, saa10, saa13, saa16
train, test

数据集文件

数据集提供以下CSV文件：

tablet segment metadata：包含泥板的cdli编号、段索引、边界框标注等信息。
transliterations：包含泥板的cdli编号、段索引、逐行转写等信息。
bbox annotations：包含泥板的cdli编号、段索引、边界框坐标等信息。
line annotations：包含泥板的cdli编号、段索引、线段定义等信息。

数据集使用

数据集的图像数据主要通过cdli网站获取，部分特殊图像由Vorderasiatisches Museum Berlin提供。数据集的标注遵循Borger的[Mesopotamisches Zeichenlexikon (MZL)]分类。

数据集统计

train_full (Train BB)：包含4663个符号，67个视图段，47块泥板。
test_full (Test)：包含3446个符号，57个视图段，34块泥板。
transliteration (Train TL)：包含185399个符号，2983个视图段，1745块泥板。

注意事项

数据集的预处理步骤可能包含错误，特别是在视图段分配方面，依赖于多个启发式方法。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于新亚述时期（约公元前900年至公元前600年）的楔形文字泥板图像及其转写文本。数据集首先从《亚述国家档案在线》（SAAo）中提取可用的转写文本，并与《楔形文字数字图书馆倡议》（cdli）中的泥板图像进行匹配。仅包含同时具备转写文本和图像的泥板。泥板图像通常由多个刻写面的图像组成，数据集通过算法将这些复合图像分割，并将分割后的视图与对应的转写文本进行匹配。最终，由亚述学研究生和博士生使用自定义标注工具对楔形文字符号进行边界框标注，并采用Borger的《美索不达米亚符号词典》（MZL）中的符号分类标准。

使用方法

使用该数据集时，首先通过提供的CSV文件加载泥板片段元数据、转写文本和标注信息。泥板图像可通过CDLI网站访问，使用泥板的CDLI编号进行检索。数据集提供了Jupyter Notebook示例，展示如何加载泥板图像并可视化标注数据。对于边界框标注和行标注，用户可根据泥板编号和片段索引进行匹配。数据集中的符号标注采用MZL分类标准，便于与其他研究进行对比。此外，数据集还提供了部分柏林博物馆泥板图像的下载链接，供研究使用。

背景与挑战

背景概述

楔形文字符号检测数据集（Cuneiform Sign Detection Dataset）由Dencker等人于2020年提出，旨在通过深度学习技术解决楔形文字符号的自动检测问题。该数据集基于新亚述时期（约公元前900年至公元前600年）的泥板图像及其转写文本，涵盖了1800多块泥板的3000多个视图片段，并提供了81块泥板的8109个符号标注，涉及186个符号类别。数据集的主要来源包括《亚述国家档案在线》（SAAo）和《楔形文字数字图书馆倡议》（CDLI），这些资源为新亚述时期的楔形文字研究提供了丰富的文本和图像资料。该数据集的发布为楔形文字研究领域提供了重要的数据支持，推动了基于深度学习的楔形文字符号检测技术的发展。

当前挑战

楔形文字符号检测数据集在构建和应用过程中面临多重挑战。首先，楔形文字符号的多样性和复杂性使得符号检测任务极具挑战性，尤其是在符号形态多变且泥板保存状态不佳的情况下。其次，数据集的构建依赖于泥板图像与转写文本的匹配，这一过程存在算法误差，尤其是在泥板图像的分段与转写文本的对应关系上，由于泥板图像的分段布局差异较大，匹配过程依赖于多种启发式方法，可能导致匹配不准确。此外，数据集的标注工作依赖于亚述学研究生和博士生的人工标注，尽管采用了标准化的符号分类体系，但标注的一致性和准确性仍需进一步验证。这些挑战为楔形文字符号检测研究提供了重要的研究方向和技术改进空间。

常用场景

经典使用场景

在楔形文字研究领域，cuneiform sign detection dataset 主要用于训练和验证深度学习模型，以自动检测和识别古代楔形文字符号。该数据集通过提供高质量的图像和对应的转写文本，使得研究人员能够开发出高效的符号检测算法，从而加速楔形文字的解读和研究进程。

解决学术问题

该数据集解决了楔形文字研究中符号检测和识别的关键问题。通过提供大量的标注数据，研究人员能够利用深度学习技术，克服传统方法在符号识别中的局限性，显著提高识别的准确性和效率。这不仅推动了楔形文字研究的深入，也为其他古代文字的研究提供了可借鉴的方法。

实际应用

在实际应用中，cuneiform sign detection dataset 被广泛应用于博物馆和考古机构的数字化项目中。通过该数据集训练的模型，能够自动识别和标注大量楔形文字泥板上的符号，极大地提高了文物数字化的效率和准确性。此外，该数据集还为历史学家和语言学家提供了宝贵的研究资源，帮助他们更好地理解古代文明。

数据集最近研究