NUSAAKSARA

Name: NUSAAKSARA
Creator: MBZUAI, Monash University Indonesia
Published: 2025-02-25 20:23:52
License: 暂无描述

arXiv2025-02-25 更新2025-02-27 收录

下载链接：

https://huggingface.co/datasets/NusaAksara/NusaAksara

下载链接

链接失效反馈

官方服务：

资源简介：

NUSAAKSARA是一个包含文本和图像模态的多模态多语言基准数据集，旨在保存和振兴印度尼西亚的传统脚本。该数据集涵盖了7种语言中的8种脚本，包括一些在NLP基准中不常见的低资源语言。数据集通过专家的严谨步骤构建，包括对文本进行转录、转写和翻译。该数据集可用于多种任务，如图像分割、光学字符识别、转写、翻译和语言识别等。

NUSAAKSARA is a multimodal and multilingual benchmark dataset covering both text and image modalities, which aims to preserve and revitalize Indonesia's traditional scripts. This dataset includes 8 scripts across 7 languages, with several low-resource languages that are rarely encountered in mainstream NLP benchmarks. It is constructed through rigorous expert-led workflows, encompassing text transcription, transliteration, and translation. The dataset supports a wide range of downstream tasks, such as image segmentation, optical character recognition (OCR), transcription, translation, and language identification.

提供机构：

MBZUAI, Monash University Indonesia

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

NUSAAKSARA数据集的构建方式是通过从历史手稿、文学作品、书籍、宗教文本、杂志和教育文献等多种来源收集资源，并进行数字化。数据集由人类专家进行严格的标注和验证，包括转录、转写和翻译成印度尼西亚语。数据集涵盖了8种不同的脚本和7种语言，包括低资源语言。对于没有Unicode支持的Lampung脚本，使用了自定义字体进行标注。

特点

NUSAAKSARA数据集的特点是它包含了8种不同的印尼本地脚本和7种语言，其中大多数语言被认为是低资源语言。数据集涵盖了多种任务，包括图像分割、OCR、转写、翻译和语言识别。数据集由人类专家进行严格的标注和验证，确保了数据的质量和准确性。

使用方法

NUSAAKSARA数据集的使用方法包括多种自然语言处理任务，如图像分割、OCR、转写、翻译和语言识别。数据集可以用于评估和比较各种模型的性能，特别是对于处理印尼本地脚本的能力。数据集的标注和验证过程保证了数据的质量和准确性，使其成为研究和开发印尼本地脚本NLP技术的宝贵资源。

背景与挑战

背景概述

NUSAAKSARA数据集是一项旨在保存印度尼西亚本土文字的创新性公共基准，涵盖了文本和图像两种模态，并包含图像分割、OCR、转写、翻译和语言识别等多种任务。该数据集由人类专家通过严格的步骤构建而成，涵盖了8种文字和7种语言的脚本，包括低资源语言。NUSAAKSARA数据集旨在解决印度尼西亚本土文字在NLP技术中的缺乏支持问题，并促进这些文字的保存和复兴。

当前挑战

NUSAAKSARA数据集面临的主要挑战包括：1) NLP技术对印度尼西亚本土文字的识别能力不足；2) 构建过程中遇到的挑战，如Lampung脚本缺乏Unicode支持，以及一些语言和脚本之间存在重叠，增加了数据标注和语料库构建的复杂性。此外，由于版权和伦理指导原则的限制，数据集仅包含了可用资源的10%，这限制了NUSAAKSARA数据集的进一步发展。

常用场景

经典使用场景

NUSAAKSARA数据集主要用于自然语言处理(NLP)技术的训练和评估，特别是在图像分割、光学字符识别(OCR)、转写、翻译和语言识别(LID)等任务上。该数据集包含了8种不同语言的文本和图像数据，涵盖了多种模态，使得模型可以在多种任务上进行训练和评估。此外，NUSAAKSARA数据集还可以用于研究印尼本土语言和文字的保护和振兴，为语言和文化多样性提供支持。

实际应用

NUSAAKSARA数据集的实际应用场景包括历史文献数字化、文化遗产保护和语言多样性维护。通过对历史文献进行OCR和转写，可以将珍贵的历史资料转化为可搜索和可访问的数字化资源，方便学者研究和公众了解。此外，NUSAAKSARA数据集还可以用于保护和振兴印尼本土语言和文字，通过提供数据支持，使得这些语言和文字可以得到更好的传承和发展。最后，NUSAAKSARA数据集还可以用于研究和开发印尼本土语言NLP技术，为印尼的语言和文化多样性提供技术支持。

衍生相关工作

NUSAAKSARA数据集的发布为后续相关研究提供了基础。例如，基于NUSAAKSARA数据集，可以进一步研究和开发针对印尼本土语言的NLP技术，如OCR、转写、翻译和LID等。此外，NUSAAKSARA数据集还可以用于研究和开发印尼本土语言的语音识别、语音合成和机器翻译等技术，为印尼的语言和文化多样性提供更多技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集