Dakshina Dataset

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/dakshina

下载链接

链接失效反馈

官方服务：

资源简介：

Dakshina数据集是一个包含12种南亚语言文本的集合，每种语言包括大量的本地脚本维基百科文本、罗马化词典以及本地脚本和基本拉丁字母的完整句子并行数据。

The Dakshina dataset is a collection of texts in 12 South Asian languages, each comprising extensive Wikipedia texts in native scripts, Romanized lexicons, and parallel data of complete sentences in both native scripts and basic Latin alphabets.

创建时间：

2020-02-20

原始信息汇总

数据集概述

数据集名称

Dakshina Dataset

数据集描述

Dakshina数据集包含12种南亚语言的文本，涵盖拉丁和本地脚本。每种语言的数据集包括大量的本地脚本文本、罗马化词典以及完整的句子平行数据。

语言列表

Bangla (bn)
Gujarati (gu)
Hindi (hi)
Kannada (kn)
Malayalam (ml)
Marathi (mr)
Punjabi (pa)
Sindhi (sd)
Sinhala (si)
Tamil (ta)
Telugu (te)
Urdu (ur)

数据组织

本地脚本文本 {#native}

包含每种语言的本地脚本文本，来自Wikipedia。
脚本类型包括：Brahmic脚本、Devanagari脚本、Gurmukhi脚本和Perso-Arabic脚本。

词典 {#lexicons}

包含本地脚本单词及其人工注释的罗马化版本。
词典分为训练、开发和测试集。

罗马化文本 {#romanized}

包含人工罗马化的完整字符串及其原始本地脚本提示。
数据分为开发和测试集，每个集分为本地和拉丁脚本文本文件。

数据预处理 {#native-preprocessing}

数据筛选包括排除特定类型的Wikipedia页面和内容。
文本提取后进行NFC归一化和ICU句子分割。

注释

罗马化验证字符串选择标准

从验证集中随机选择10,000个字符串进行罗马化。

罗马化往返验证 {#round-trip-validation}

通过将罗马化字符串重新转换为本地脚本并比较原始字符串来验证罗马化准确性。

许可证

数据集根据CC BY-SA 4.0许可发布。

搜集汇总

数据集介绍

构建方式

Dakshina数据集的构建基于12种南亚语言的维基百科文本，涵盖了本地文字和拉丁字母的对应关系。每种语言的数据集包括本地文字的维基百科文本、本地文字词汇与拉丁化词汇的词典，以及部分完整句子的平行数据。数据集的构建过程涉及对维基百科文本的筛选和预处理，确保文本主要由目标语言的Unicode代码块字符组成，并排除了包含特定类型内容的页面。此外，数据集还包括人工标注的罗马化词典和句子，以及通过多轮验证确保罗马化准确性的数据。

特点

Dakshina数据集的显著特点在于其多语言覆盖和多层次数据结构。每种语言的数据集不仅包含本地文字的维基百科文本，还提供了详细的罗马化词典和句子平行数据，支持从本地文字到拉丁字母的转换研究。数据集的多样性体现在其涵盖了多种南亚语言的不同书写系统，包括婆罗米文字和波斯-阿拉伯文字等。此外，数据集通过多轮验证确保了罗马化数据的准确性，提供了详细的错误分析和编辑距离信息，便于用户进行模型评估和改进。

使用方法

Dakshina数据集可用于多种自然语言处理任务，特别是涉及南亚语言的文字转换和罗马化研究。用户可以通过访问数据集的GitHub页面下载相关文件，并根据需要选择不同语言和数据类型进行实验。数据集提供了详细的文件结构和预处理信息，用户可以根据这些信息进行数据加载和处理。此外，数据集还提供了罗马化数据的验证信息，用户可以利用这些信息进行模型评估和错误分析。在使用数据集时，建议用户参考相关文献并遵循数据集的许可协议。

背景与挑战

背景概述

Dakshina数据集是由Google研究团队于2020年创建的，旨在解决南亚语言在拉丁字母与本地文字之间的转换问题。该数据集包含了12种南亚语言的文本，涵盖了本地文字的维基百科文本、罗马化词典以及完整的句子平行数据。主要研究人员包括Brian Roark、Lawrence Wolf-Sonkin等，他们的研究成果在第12届语言资源和评估会议（LREC）上发表，对南亚语言处理领域产生了重要影响。

当前挑战

Dakshina数据集面临的挑战主要集中在两个方面：首先，构建过程中需要处理多种复杂的本地文字和拉丁字母之间的转换，尤其是不同语言的文字系统差异巨大，增加了数据处理的复杂性。其次，数据集的标注和验证过程需要大量的人工干预，确保罗马化词典和句子平行数据的准确性，尤其是对于长句子的分割和重新组合，以及罗马化后的回译验证，这些都增加了数据集构建的难度。

常用场景

经典使用场景

Dakshina数据集的经典使用场景主要集中在南亚语言的罗马化与原生脚本之间的转换任务。该数据集提供了12种南亚语言的维基百科文本，包括原生脚本和罗马化版本，以及一个罗马化词典。这些资源使得研究者和开发者能够训练和评估模型，以实现从原生脚本到罗马化脚本的自动转换，反之亦然。这种转换任务在多语言信息处理、跨语言搜索和文本翻译等领域具有广泛的应用前景。

解决学术问题

Dakshina数据集解决了南亚语言在罗马化与原生脚本之间转换的学术研究问题。由于南亚语言的书写系统多样且复杂，传统的罗马化方法往往难以准确处理这些语言的特殊字符和语法结构。该数据集通过提供大规模的平行数据和罗马化词典，为研究者提供了一个标准化的基准，促进了相关领域的研究进展，特别是在自然语言处理和机器翻译领域。

衍生相关工作

Dakshina数据集的发布催生了许多相关的经典工作。例如，研究者利用该数据集开发了多种罗马化模型，这些模型在处理南亚语言的罗马化任务时表现出色。此外，该数据集还被用于评估和改进现有的自然语言处理技术，特别是在多语言文本处理和跨语言信息检索方面。这些工作不仅推动了南亚语言处理技术的发展，也为其他复杂书写系统的语言处理提供了宝贵的经验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集