Thaana Text Corpus, Dhivehi News Clasification, Dhivehi Speech, Akuru-MNIST, Latin, Dhivehi Neural Machine Translation

github2021-12-13 更新2024-05-31 收录

下载链接：

https://github.com/Sofwath/DhivehiDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

Thaana Text Corpus：Dhivehi新闻（主要是）文本语料库。Dhivehi News Clasification：包含政治、娱乐、生活方式、一般新闻、体育等类别的Dhivehi新闻标题。Dhivehi Speech：从PO MV收集的Dhivehi语音数据。Akuru-MNIST：用于OCR的MNIST风格的Akuru数据集。Latin：Maldivian Latin到Thaana的数据集，需要大量修复。Dhivehi Neural Machine Translation：从网站和其他来源提取的Dhivehi-English文本。

Thaana 文本语料库：迪维希语新闻（主要）文本语料库。迪维希新闻分类：包含政治、娱乐、生活方式、一般新闻、体育等类别的迪维希新闻标题。迪维希语音：源自 PO MV 的迪维希语音数据集。Akuru-MNIST：适用于光学字符识别的 MNIST 风格的 Akuru 数据集。拉丁语：马尔代夫拉丁语到 Thaana 的数据集，需进行大量修复。迪维希神经机器翻译：从网站及其他来源提取的迪维希-英语文本。

创建时间：

2018-07-03

原始信息汇总

数据集概述

1. Thaana Text Corpus

内容: 包含Dhivehi新闻文本的语料库（主要）
大小: 307 MB

2. Dhivehi News Classification

内容: Dhivehi新闻标题，涵盖政治、娱乐、生活方式、一般新闻、体育等多个类别
大小: 12 MB

3. Dhivehi Speech

内容: Dhivehi语音数据，收集自PO MV
大小: 1 GB

4. Akuru-MNIST

内容: 用于OCR的Akuru风格MNIST数据集
大小: 161 MB

5. Latin

内容: Maldivian Latin到Thaana的数据集，需要大量修复
大小: 3 MB

6. Dhivehi Neural Machine Translation

内容: 从网站和其他来源提取的Dhivehi-English文本
大小: 4 MB

搜集汇总

数据集介绍

构建方式

Thaana Text Corpus数据集主要构建自迪维希语新闻文本，涵盖了广泛的新闻主题，数据量达到307MB。Dhivehi News Classification数据集则通过收集迪维希语新闻标题，按政治、娱乐、生活方式等多个类别进行分类，数据量为12MB。Dhivehi Speech数据集来源于PO MV的语音数据，数据量高达1GB。Akuru-MNIST数据集以MNIST风格构建，专门用于迪维希语字符的OCR任务，数据量为161MB。Latin数据集则包含马尔代夫拉丁字母与Thaana字母的对应关系，数据量为3MB。Dhivehi Neural Machine Translation数据集从网站及其他来源提取迪维希语与英语的对应文本，数据量为4MB。

特点

Thaana Text Corpus数据集以其丰富的迪维希语新闻文本为特色，适用于自然语言处理任务。Dhivehi News Classification数据集通过多类别新闻标题的分类，为文本分类研究提供了基础。Dhivehi Speech数据集以其大规模的语音数据，为语音识别和语音合成研究提供了重要资源。Akuru-MNIST数据集以MNIST风格构建，专注于迪维希语字符的识别，为OCR任务提供了标准化的数据集。Latin数据集则通过拉丁字母与Thaana字母的对应关系，为字符转换任务提供了基础数据。Dhivehi Neural Machine Translation数据集则为迪维希语与英语之间的机器翻译任务提供了宝贵的双语文本资源。

使用方法

Thaana Text Corpus数据集可用于训练和评估迪维希语的自然语言处理模型，如文本分类、情感分析等。Dhivehi News Classification数据集适用于新闻标题的多类别分类任务，可用于构建新闻推荐系统或新闻分类器。Dhivehi Speech数据集可用于语音识别模型的训练与评估，或用于语音合成系统的开发。Akuru-MNIST数据集则适用于迪维希语字符的OCR任务，可用于训练字符识别模型。Latin数据集可用于研究拉丁字母与Thaana字母之间的转换规则，或用于字符转换模型的训练。Dhivehi Neural Machine Translation数据集则可用于训练和评估迪维希语与英语之间的机器翻译模型。

背景与挑战

背景概述

Dhivehi数据集集合由多个子数据集构成，涵盖了马尔代夫语言（Dhivehi）的文本、语音及机器翻译等多个领域。这些数据集由个人研究者在其机器学习实验中创建，主要用于探索Dhivehi语言的自然语言处理任务。Thaana Text Corpus包含了大量Dhivehi新闻文本，Dhivehi News Classification则提供了新闻标题的分类数据，Dhivehi Speech收集了来自PO MV的语音数据，Akuru-MNIST则是一个用于光学字符识别的Dhivehi字符数据集。此外，Latin数据集和Dhivehi Neural Machine Translation数据集分别涉及拉丁字母到Thaana字母的转换以及Dhivehi-英语的机器翻译任务。这些数据集的创建为Dhivehi语言的计算语言学研究和应用提供了重要资源。

当前挑战

Dhivehi数据集集合在构建和应用中面临多重挑战。首先，Dhivehi作为一种低资源语言，其文本和语音数据的获取与标注成本较高，导致数据集规模有限，难以支持大规模深度学习模型的训练。其次，Thaana字母的独特性和复杂性使得光学字符识别（OCR）任务尤为困难，Akuru-MNIST数据集虽然提供了Dhivehi字符的MNIST风格数据，但其多样性和覆盖范围仍需扩展。此外，Dhivehi Neural Machine Translation数据集的规模较小，且数据质量参差不齐，限制了机器翻译模型的性能。最后，Latin数据集中拉丁字母到Thaana字母的转换规则尚不完善，需要进一步修正和优化。这些挑战共同制约了Dhivehi语言处理技术的进一步发展。

常用场景

经典使用场景

Thaana Text Corpus和Dhivehi News Classification数据集在自然语言处理领域中被广泛用于文本分类和情感分析任务。这些数据集提供了丰富的马尔代夫语新闻文本，使得研究人员能够训练和评估机器学习模型，特别是在处理低资源语言时。Akuru-MNIST数据集则常用于光学字符识别（OCR）任务，为马尔代夫字母的自动识别提供了基准数据。

衍生相关工作

基于这些数据集，许多经典的研究工作得以展开。例如，研究人员利用Dhivehi News Classification数据集开发了高效的新闻分类算法，显著提升了马尔代夫语新闻的自动化处理能力。此外，Dhivehi Neural Machine Translation数据集催生了多个马尔代夫语-英语翻译模型，推动了低资源语言机器翻译领域的发展。

数据集最近研究