Mapudungun Speech Corpus

github2024-02-19 更新2024-05-31 收录

下载链接：

https://github.com/mingjund/mapudungun-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是由CMU、智利教育部和拉弗龙特拉大学土著研究所共同为AVENUE项目收集的Mapudungun语言数据集的清理版本。数据集用于语音识别、合成和机器翻译实验，包含原始转录和翻译以及清理后的版本。

This dataset is a cleaned version of the Mapudungun language dataset collected by CMU, the Chilean Ministry of Education, and the Indigenous Institute of the University of La Frontera for the AVENUE project. The dataset is utilized for experiments in speech recognition, synthesis, and machine translation, encompassing both original transcriptions and translations along with their cleaned versions.

创建时间：

2019-11-23

原始信息汇总

数据集概述

数据集名称

mapudungun-corpus

数据集来源

由CMU、智利教育部和Universidad de La Frontera的Instituto de Estudios Indígenas合作收集。

数据内容

原始音频数据：可从这里下载。
转录和翻译文件：
- TRANSCRIPTION 和 TRANSLATION 目录包含原始转录和翻译。
- transcription-clean 和 translation-clean 目录包含清理后的版本，用于语音识别、合成和机器翻译实验。
数据集分割：训练、开发和测试集分割信息位于dataset_splits目录。

数据清理

清理数据的脚本位于data-cleaning目录。

引用信息

使用原始数据时，请引用：

@dataset{mapudungun, title={Mapudungun Speech Corpus}, author={Luis Caniupil, Flor Caniupil; Héctor Painequeo; Rosendo Huisca; Hugo Carrasco; Rodolfo M Vega; Lori Levin; Jaime Carbonell} }
使用清理后的数据或比较基线结果时，请引用：

@misc{duan2019mapudungun, author={Mingjun Duan, Carlos Fasola, Sai Krishna Rallabandi, Rodolfo M. Vega, Antonios Anastasopoulos, Lori Levin, and Alan W Black}, title={A Resource for Computational Experiments on Mapudungun}, note={preprint}, year={2019} }

搜集汇总

数据集介绍

构建方式

Mapudungun Speech Corpus数据集的构建源于AVENUE项目，由卡内基梅隆大学、智利教育部以及拉弗龙特拉大学土著研究所共同合作完成。该数据集包含了Mapudungun语言的原始音频数据，并通过专门的脚本对转录和翻译文本进行了清理，去除了不必要的注释，以便更好地应用于语音识别、合成及机器翻译等实验。数据集的训练集、开发集和测试集划分明确，为后续的基准实验提供了坚实的基础。

使用方法

使用Mapudungun Speech Corpus数据集时，研究者可从指定链接下载原始音频数据，并根据实验需求选择使用原始转录或清理后的版本。数据集的划分文件可直接用于训练、开发和测试集的构建，便于快速开展基准实验。若使用清理后的数据或参考基线实验结果，需引用相应的文献，以确保学术规范性和数据来源的透明性。

背景与挑战

背景概述

Mapudungun Speech Corpus是由卡内基梅隆大学（CMU）、智利教育部以及拉弗龙特拉大学土著研究所共同合作，在AVENUE项目框架下收集和整理的一个语音语料库。该数据集旨在为Mapudungun语言的研究提供支持，Mapudungun是智利土著马普切人使用的一种语言，具有重要的文化价值和语言学意义。数据集的创建时间可追溯至2019年，主要研究人员包括Luis Caniupil、Flor Caniupil、Héctor Painequeo等。该数据集的核心研究问题聚焦于语音识别、语音合成以及机器翻译等自然语言处理任务，为Mapudungun语言的数字化保存和计算语言学实验提供了重要资源。

当前挑战

Mapudungun Speech Corpus在构建和应用过程中面临多重挑战。首先，Mapudungun作为一种濒危语言，其语音数据的收集和标注工作极为复杂，需要依赖精通该语言的母语者进行转录和翻译，这对数据集的构建提出了高要求。其次，由于Mapudungun语言的语法结构和词汇体系与主流语言存在显著差异，传统的自然语言处理模型难以直接适用，这为语音识别和机器翻译等任务带来了技术挑战。此外，数据集的清洗和标准化过程也需耗费大量人力，以确保数据的准确性和一致性，从而为后续研究提供可靠的基础。

常用场景

经典使用场景

Mapudungun Speech Corpus数据集在语音识别、语音合成和机器翻译等领域具有广泛的应用。该数据集包含了Mapudungun语言的原始音频数据及其转录和翻译文本，为研究人员提供了丰富的语言资源。通过该数据集，研究者可以训练和评估各种语音处理模型，尤其是在低资源语言处理方面，Mapudungun Speech Corpus为相关研究提供了重要的数据支持。

解决学术问题

Mapudungun Speech Corpus解决了低资源语言处理中的关键问题。由于Mapudungun语言的使用者较少，相关语言资源匮乏，该数据集的发布填补了这一空白。通过提供高质量的音频和文本数据，研究者能够开发出更精确的语音识别和机器翻译模型，推动低资源语言处理技术的发展。此外，该数据集还为跨语言研究提供了宝贵的实验材料，促进了语言多样性的保护和研究。

实际应用

在实际应用中，Mapudungun Speech Corpus为Mapudungun语言的语音识别和翻译系统提供了基础数据支持。这些系统可以应用于教育、文化保护和社会服务等领域。例如，在教育领域，该数据集可以帮助开发Mapudungun语言的教学工具，促进该语言的传承和学习。在文化保护方面，语音识别和翻译技术可以用于记录和保存Mapudungun语言的口头传统，防止其流失。

数据集最近研究