Corpus of Indus Seals and Inscriptions digitization

github2024-05-31 更新2024-06-01 收录

下载链接：

https://github.com/mayig/indus-valley-script-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库是一个正在进行的数字化的Indus Valley Script数据集，旨在创建一个友好、免费、开放的数字数据集，供研究Indus文字使用。数据集使用Parpola的文本编号系统，并提供额外的数字信息以更精细地区分可能重要的字形。

This repository is an ongoing digitization project of the Indus Valley Script dataset, aiming to create a user-friendly, free, and open digital dataset for the study of Indus script. The dataset employs Parpola's text numbering system and provides additional digital information to more precisely distinguish potentially significant glyphs.

创建时间：

2024-05-29

原始信息汇总

数据集概述

名称： Corpus of Indus Seals and Inscriptions digitization

格式： 数据集采用json格式，便于人类阅读和应用程序消费。

内容： 数据集包含单个文物的详细信息，每个json文件代表一个文物。文件中最高级别是一个包含“侧面”的数组，每个数组条目是一个文物的侧面，包含对象ID、文物类型简短描述和图符列表。

使用方法

数据访问： 数据集位于仓库的corpus子目录中。
文物查找工具： 提供了一个名为artefact_finder的Rust语言命令行工具，用于查找特定文物的数据。用户可以通过命令行参数如-a m102来检索特定文物的信息。

目标

数据集目标： 创建一个友好、免费、开放的数字数据集，用于印度河文字研究。使用CISI文本编号系统，并提供详细的图符和异体字理解。
图符特征： 每个图符都有特征向量，如branching_factor、branch_count和branch_direction，这些特征向量存储在features子目录中。

附加信息

默认特征： 所有图符共享一些默认特征，如“损伤”、“线条”和“不确定性”。
特征编码： 使用整数编码所有特征，以便于数值分析。
字体支持： 计划包含Unicode字符以提供图符的视觉线索，目前测试了AMBILE IVC Script字体。

数据集位置

数据集文件： 位于仓库的corpus子目录。
特征向量文件： 位于features子目录。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Parpola等人的《印度河印章和铭文语料库》（Corpus of Indus Seals and Inscriptions, CISI），通过数字化手段将其转化为易于处理和分析的`json`格式。数据集的每个文件代表一个单独的文物，最高层级是一个包含文物各侧信息的数组。每侧信息包括文物ID、简短描述以及一系列字符。字符的记录遵循从左到右的顺序，考虑到脚本是从右到左阅读的。此外，数据集还包括了Parpola（1982）提供的最包容的同形异义字列表，并附加了额外的数字信息以区分重要的字符差异。

特点

该数据集的一个显著特点是其采用了`json`格式，这种格式在编程社区中广受欢迎，且大多数编程语言都具备强大的`json`数据处理能力。此外，数据集还引入了“字符特征”的概念，每个同形异义字都有一个特征向量，这些特征向量包括分支因子、分支数量和分支方向等，从而提供了更为精细的字符区分。数据集还包含了默认特征，如损坏程度、文本行和不确定性，这些特征为字符的识别提供了额外的上下文信息。

使用方法

用户可以通过`corpus`子目录中的`json`文件直接访问数据集，每个文件代表一个文物。为了便于人类阅读，数据集提供了一个名为`artefact_finder`的Rust语言命令行工具，用户可以通过该工具查询特定文物的语料库条目。此外，数据集还包含一个Visual Studio Code扩展，允许用户悬停在字符编号上以获取符号的详细描述及其特征向量。对于不熟悉Rust语言的用户，可以请求预构建的二进制文件。数据集的源代码也已提供，用户可以通过常规的Rust构建技术为任何操作系统编译该工具。

背景与挑战

背景概述

Corpus of Indus Seals and Inscriptions digitization数据集由Parpola等人创建，旨在将印度河流域文明的印章和铭文数字化。该数据集的核心研究问题在于通过数字化手段保存和传播这些珍贵的文化遗产，以便于学术研究和公众教育。主要研究人员包括Dr Asko Parpola、Dr Andreas Fuls和Bryan K Wells，他们的共同努力使得这一数据集得以实现。该数据集的创建不仅有助于深入理解印度河流域文明的文字系统，还为相关领域的研究提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临多项挑战。首先，印度河流域文明的文字系统复杂且缺乏现代语言的直接对应，导致在数字化过程中对符号的识别和分类存在困难。其次，由于历史久远，许多文物存在不同程度的损坏，这增加了数据标注的难度和不确定性。此外，为了确保数据的准确性和一致性，研究人员需要在多种符号系统之间进行细致的对比和校准。最后，数据集的开放性和易用性也是一个重要挑战，需要确保数据格式能够被广泛接受和使用，同时保护文化遗产的完整性。

常用场景

经典使用场景

在古代印度河流域文明的深入研究中，Corpus of Indus Seals and Inscriptions digitization数据集的经典使用场景主要体现在对印章和铭文的高精度数字化处理。通过将这些珍贵的文物转化为易于处理的JSON格式，研究者能够更便捷地分析和解读这些古代文本。数据集不仅记录了文物的基本信息，还详细描述了每个符号的特征向量，从而为符号学的深入研究提供了坚实的基础。

解决学术问题

该数据集在学术研究中解决了多个关键问题，特别是在古代印度河流域文字的符号学和语义学研究中。通过提供详细的符号特征向量，数据集帮助学者们更精确地区分和识别不同的符号，从而推动了对这一古老文明的文字系统的理解。此外，数据集的开放性和易用性也促进了不同研究团队之间的数据共享和交叉验证，增强了研究结果的可靠性和广泛性。

衍生相关工作

基于Corpus of Indus Seals and Inscriptions digitization数据集，许多相关研究工作得以展开。例如，有学者利用数据集中的符号特征向量开发了新的符号识别算法，进一步提高了对古代文本的解读能力。此外，数据集的开放性也激发了跨学科的合作，如与计算机科学领域的专家合作，开发了用于处理和分析这些数据的专用工具和软件，从而推动了古代文字研究的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集