Bessarion

github2024-09-27 更新2024-09-28 收录

下载链接：

https://github.com/Archaeocomputers/Bessarion

下载链接

链接失效反馈

官方服务：

资源简介：

Bessarion是一个包含拜占庭时代中世纪希腊铭文的文本和图像数据集，适用于计算机视觉和自然语言处理任务。数据集包含122张图像，描绘了历史性的捐赠铭文，描述了为相关建筑或纪念碑的建设做出贡献的个人或团体。文本以希腊语书写，数据集提供了多层次的注释，包括504个文本行、2,776个单词和10,414个字符的轮廓。

Bessarion is a text and image dataset encompassing medieval Greek inscriptions from the Byzantine era, suitable for computer vision and natural language processing tasks. The dataset comprises 122 images depicting historical donation inscriptions, which elaborate on individuals or groups that contributed to the construction of corresponding buildings or monuments. The texts are written in Greek, and the dataset provides multi-level annotations, including 504 text lines, 2,776 words, and 10,414 character contours.

创建时间：

2024-09-25

原始信息汇总

Bessarion: 中世纪希腊铭文数据集

数据集概述

数据集内容

图像数据：包含122张图像，描绘了拜占庭时期的捐赠铭文，描述了为相关建筑或纪念碑的建设做出贡献的个人或团体。
文本数据：铭文使用希腊语书写。
注释：提供多层次的注释，包括504条文本行、2,776个单词和10,414个字符的轮廓。
地理位置：数据来自希腊西北部伊庇鲁斯地区的37个地点。

任务基线

铭文检测：提供基线检测方法的性能指标，包括Sparse R-CNN和Q-GAN + CC。
文本识别：展示了HTR模型的识别结果，WER为6.1%。
单词分类：通过NLP任务识别与捐赠者或纪念碑建造时间相关的单词。

数据结构

图像数据

路径：dataset/image_resources
组织：每个文件夹包含来自单个地点的图像数据，同一地点的不同纪念碑数据可能位于不同的子文件夹中。

自然语言数据

路径：dataset/nlp_resources
内容：包括铭文的完整转录和相关元数据。

其他信息

历史背景

数据集名称致敬希腊学者Bessarion。

致谢

数据集由“Bessarion”研究项目收集和处理，该项目由国家/欧盟的“文化中的开放创新”呼吁资助。

引用

如果使用该数据集，请引用相关论文。

搜集汇总

数据集介绍

构建方式

该数据集名为Bessarion，专注于拜占庭时期的中世纪希腊铭文，旨在为计算机视觉和自然语言处理任务提供一个具有挑战性的测试平台。数据集的构建涵盖了从希腊伊庇鲁斯地区的37个地点收集的122张图像，这些图像描绘了历史捐赠铭文，描述了为相关地点或纪念碑建设做出贡献的个人或团体。数据集不仅包括图像数据，还提供了多层次的文本注释，包括504条文本行、2,776个单词和10,414个字符的轮廓。此外，数据集还包含了与NLP任务相关的完整转录和元数据，这些数据存储在特定的文件夹中，便于访问和使用。

特点

Bessarion数据集的显著特点在于其历史和文化背景的独特性，以及对现代技术应用的挑战性。首先，该数据集填补了中世纪希腊铭文领域大规模训练数据的空白，为研究者提供了宝贵的资源。其次，铭文中的自然磨损和系统性拼写错误增加了文本识别的难度，使得该数据集成为评估和改进现有计算机视觉和NLP技术的理想选择。此外，数据集的多层次注释和丰富的元数据支持了从文本检测到单词分类的多种任务，为跨学科研究提供了广泛的应用前景。

使用方法

使用Bessarion数据集时，研究者可以首先访问存储在'dataset/image_resources'文件夹中的图像数据和PageXML注释，这些数据按地点分类，便于定位和分析。对于自然语言处理任务，相关数据包括完整转录和元数据，位于'dataset/nlp_resources'文件夹中。研究者可以根据需要选择不同层次的注释进行实验，如文本行、单词或字符级别的注释。此外，数据集还提供了基线方法的性能指标，如检测准确率和分类比率，供研究者参考和比较。通过这些详细的使用指南，研究者可以有效地利用Bessarion数据集进行深入的研究和开发。

背景与挑战

背景概述

Bessarion数据集聚焦于拜占庭时期的中世纪希腊铭文，由希腊计算机科学研究所的研究团队创建。该数据集包含122张图像，涵盖了希腊伊庇鲁斯地区37个地点的历史捐赠铭文，描述了为相关建筑或纪念碑贡献的个人或团体。这些铭文以希腊语书写，提供了多层次的注释，包括504条文本行、2,776个单词和10,414个字符。Bessarion数据集的创建旨在为计算机视觉和自然语言处理任务提供一个具有挑战性的测试平台，特别是在缺乏大规模相关训练集的情况下，现代技术难以直接应用。

当前挑战

Bessarion数据集面临的主要挑战包括：1) 铭文的自然磨损和系统性拼写错误，增加了文本识别的难度；2) 中世纪希腊语在数字化语料库中的稀缺性，限制了自然语言处理模型的训练；3) 数据集的构建过程中，需要处理不同层次的注释，确保其一致性和准确性。此外，由于历史铭文的特殊性，现代资源密集型技术在应用时面临诸多限制，如图像质量和文本内容的复杂性。

常用场景

经典使用场景

在计算机视觉与自然语言处理领域，Bessarion数据集因其独特的拜占庭时期中世纪希腊铭文图像和文本而成为一项极具挑战性的研究资源。该数据集不仅包含122张历史捐赠铭文的图像，还提供了多层次的注释，包括504条文本行、2,776个单词和10,414个字符的轮廓。这些丰富的注释使得Bessarion数据集在铭文检测、文本识别和单词分类等任务中具有广泛的应用前景。

衍生相关工作

基于Bessarion数据集，已有多项相关研究工作展开。例如，Retsinas等人在2022年的国际文档分析系统研讨会上提出了基于该数据集的手写文本识别（HTR）模型，取得了6.1%的字错误率。此外，结合现代希腊BERT编码器的单词分类方法，也在该数据集上实现了75%至99%的正确分类率。这些研究不仅提升了数据集的应用价值，也为后续研究提供了宝贵的参考。

数据集最近研究