Old-Persian-Dataset

github2024-07-04 更新2024-07-05 收录

下载链接：

https://github.com/Electronic-Old-Persian-Library/Old-Persian-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于古波斯楔形文字的原始数据集，包含图像和文本数据，以及相关的元数据和参考资料。数据集包括来自伊朗国家博物馆和塔赫特-贾姆希德（波斯波利斯）的个人摄影作品，以及英国博物馆和楔形文字数字图书馆计划的收藏。

This is a raw dataset focused on ancient Persian cuneiform, which includes image and text data, as well as relevant metadata and reference materials. The dataset comprises personal photographic works from the National Museum of Iran and Takht-e Jamshid (Persepolis), alongside collections from the British Museum and the Cuneiform Digital Library Initiative.

创建时间：

2024-06-23

原始信息汇总

原始楔形文字数据集 - 古波斯语

数据结构

图像数据

/imagedata/
- /source/
  - /king/
    - source_king_001.jpg
  - /behistun/
    - /darius_1/
      - behistun_darius_1_001.jpg

文本数据

/textdata/
- /eng_transcription_to_english/
  - /metadata/
    - eng_transcription_to_english_001.json
- /eng_transliteration_to_english/
  - /metadata/
    - eng_transliteration_to_english_001.json
- /single/
  - /metadata/
  - /eng_transliteration/
    - eng_transliteration_001.json

元数据

每个目录都提供了一个 source.metadata.csv 文件，以查看数据信息。

参考资料

大英博物馆收藏
楔形文字数字图书馆计划（CDLI）
伊朗国家博物馆和塔赫特-贾姆希德（波斯波利斯）的个人摄影

术语表

Behistun: بیستون
Susa: شوش
Persepolis: پرسپولیس (تخت جمشید)
Elamite: ایلامی
Babylonian: بابِلی
Cyrus: کوروش
Xerxes: خشایار
Artaxerxes: اردشیر
𐎠𐎢𐎼𐎶𐏀𐎡𐎠: اهورامزدا

搜集汇总

数据集介绍

构建方式

Old-Persian-Dataset的构建基于对古波斯楔形文字的深入研究，通过整合来自多个权威来源的图像和文本数据，如伊朗国家博物馆、大英博物馆以及Cuneiform Digital Library Initiative (CDLI)等。数据集的结构分为图像数据和文本数据两大部分，图像数据包括不同来源的古波斯楔形文字图像，而文本数据则涵盖了英文转录和翻译的多种形式。此外，每部分数据均附有详细的元数据，以确保数据的透明性和可追溯性。

特点

该数据集的显著特点在于其对古波斯楔形文字的多维度记录和处理，不仅包括原始图像数据，还提供了英文转录和翻译，以及单一文本数据。这种多层次的数据结构使得研究者能够从不同角度分析和理解古波斯文字。此外，数据集的元数据详细记录了每条数据的来源、发现地点和翻译状态等信息，增强了数据的可信度和研究价值。

使用方法

使用Old-Persian-Dataset时，研究者可以根据需求选择图像数据或文本数据进行分析。对于图像数据，可以通过OCR模型将其转换为英文转录文本，进而利用NLP或大型语言模型进行现代语言的转换。文本数据部分则可以直接用于语言学分析或翻译研究。数据集的元数据文件提供了每条数据的关键信息，便于用户进行筛选和验证。

背景与挑战

背景概述

古波斯楔形文字数据集（Old-Persian-Dataset）由电子古波斯图书馆（Electronic-Old-Persian-Library）团队创建，专注于收集和整理古波斯楔形文字的图像和文本数据。该数据集的核心研究问题是如何将古波斯楔形文字准确地转换为现代语言，特别是英语。通过提供详细的图像和文本数据，该数据集为历史学、语言学和计算机科学领域的研究人员提供了宝贵的资源，有助于推动古波斯楔形文字的数字化和自动化处理。

当前挑战

古波斯楔形文字数据集在构建过程中面临多重挑战。首先，古波斯楔形文字的独特性和复杂性使得数据收集和处理变得异常困难。其次，由于古波斯楔形文字的稀有性和历史价值，获取高质量的图像和文本数据需要大量的实地考察和专业知识。此外，将古波斯楔形文字转换为现代语言的技术挑战也不容忽视，包括光学字符识别（OCR）和自然语言处理（NLP）模型的开发与优化。这些挑战共同构成了该数据集在研究和应用中的主要障碍。

常用场景

经典使用场景

Old-Persian-Dataset的经典使用场景主要集中在古波斯楔形文字的数字化和翻译研究。研究者可以利用该数据集中的图像数据和文本数据，通过光学字符识别（OCR）技术将古波斯楔形文字转换为英文转录文本，进而利用自然语言处理（NLP）或大型语言模型（LLM）进行现代语言的翻译。这一过程不仅有助于学术界对古波斯语言的深入理解，也为文化遗产的数字化保护提供了重要支持。

衍生相关工作

Old-Persian-Dataset的发布催生了一系列相关经典工作。首先，基于该数据集的OCR模型和NLP模型的开发，为古文字的自动识别和翻译提供了技术支持。其次，学者们利用数据集中的丰富信息，发表了多篇关于古波斯语言和文化的学术论文，深化了对这一古老文明的理解。此外，数据集还激发了跨学科的研究合作，如计算机科学与历史学的结合，推动了文化遗产数字化保护的新方法和新思路。

数据集最近研究