mboshi-french-parallel-corpus

github2023-06-07 更新2024-05-31 收录

下载链接：

https://github.com/besacier/mboshi-french-parallel-corpus

下载链接

链接失效反馈

资源简介：

该数据集包含在现实语言文档过程中收集的语音语料库，由5000个Mboshi（班图语系C25）语音语句与法语文本翻译对齐组成。语音转录也提供，对应于接近语言音系的非标准拼写形式。数据集对社区开放，用于可复现的计算语言文档实验及其评估。

This dataset comprises a speech corpus collected during real-world language documentation processes, consisting of 5,000 Mboshi (Bantu language group C25) speech utterances aligned with French text translations. Speech transcriptions are also provided, corresponding to non-standard orthographic forms that approximate the language's phonology. The dataset is openly available to the community for reproducible computational language documentation experiments and their evaluations.

创建时间：

2017-09-12

原始信息汇总

数据集概述

名称: mboshi-french-parallel-corpus

描述: 该数据集包含了一个在真实语言文档化过程中收集的语音语料库，包含5000条Mboshi（Bantu C25）语音语句及其对应的法语文本翻译。此外，还提供了接近语言音系的非标准字符表音形式的语音转录。

数据集组成部分

full_corpus_newsplit
- 包含Mboshi的wav文件、语言学家的转录以及法语翻译。
- 这部分数据经过仔细检查，是干净的。
forced_alignments_supervised_spkr
- 包含Mboshi语音与Mboshi转录之间的强制对齐。
- 这些对齐可能对从语音中评分单词或音素发现有用，但应视为“银标准”而非“金标准”，因为它们是从一个小型语料库中获得的不完美对齐。
ZRC_scoring
- 包含用于评分口语单词发现的脚本和参考文件，使用Zero Resource Challenge Metrics。
- 参考文件来自上述强制对齐。

数据集用途

该数据集旨在为可重复的计算语言文档化实验及其评估提供支持。

AI搜集汇总

数据集介绍

构建方式

mboshi-french-parallel-corpus数据集是在现实语言记录过程中收集的语音语料库，包含5000条Mboshi语（班图语C25）的语音片段及其对应的法语文本翻译。语音转录以接近语言音系的非标准字形形式提供。该数据集旨在支持可重复的计算语言记录实验及其评估。数据集分为多个部分，包括经过仔细检查的干净数据、强制对齐的语音与转录数据，以及用于零资源挑战评分的脚本和参考文件。

特点

该数据集的特点在于其多模态性，涵盖了Mboshi语的语音、转录文本及其法语翻译，形成了一个平行语料库。语音转录以非标准字形形式呈现，更贴近语言的实际音系特征。此外，数据集提供了强制对齐的语音与转录数据，尽管这些对齐结果并非完美，但仍可作为参考标准。数据集还包含了用于零资源挑战评分的脚本和参考文件，便于研究者进行语音发现任务的评估。

使用方法

mboshi-french-parallel-corpus数据集的使用方法多样，适用于计算语言记录实验、语音识别、机器翻译等领域的研究。研究者可以通过数据集中的语音和转录文本进行语音发现任务，利用强制对齐数据进行音素或词汇发现实验。此外，数据集提供的零资源挑战评分脚本和参考文件可用于评估语音发现模型的性能。数据集的使用还可结合相关文献中的方法，进一步探索低资源语言的计算语言记录技术。

背景与挑战

背景概述

mboshi-french-parallel-corpus数据集由Pierre Godard等研究人员于2017年创建，旨在为计算语言学领域的语言文档化实验提供支持。该数据集包含5000条Mboshi语（Bantu C25）的语音片段及其对应的法语文本翻译，同时还提供了接近语言音系的非标准字形转录。该数据集的发布为低资源语言的语音处理研究提供了宝贵的资源，尤其适用于语音转录、翻译对齐及零资源语音发现等任务。其研究成果发表于LREC 2018会议，并在计算语言学领域产生了广泛影响，推动了低资源语言处理技术的发展。

当前挑战

mboshi-french-parallel-corpus数据集在构建和应用过程中面临多重挑战。首先，Mboshi语作为一种低资源语言，其语音数据的收集和标注需要依赖语言学专家的深度参与，这对数据质量和一致性提出了较高要求。其次，语音与文本的对齐任务依赖于有限的语料库，导致生成的强制对齐结果仅为“银标准”，而非“金标准”，这对后续研究的准确性带来一定限制。此外，零资源语音发现任务的评估依赖于特定的评分脚本和参考文件，这对研究者的技术能力提出了额外要求。这些挑战共同凸显了低资源语言处理领域的复杂性与技术瓶颈。

常用场景

经典使用场景

mboshi-french-parallel-corpus数据集在计算语言学领域中被广泛用于语言文档化实验的复现与评估。该数据集包含了5000条Mboshi语（班图语C25）的语音片段及其对应的法语文本翻译，适用于语音识别、语音对齐以及跨语言翻译等任务。研究人员可以利用该数据集进行低资源语言的语音处理研究，尤其是在缺乏标准语音标注的情况下，探索如何通过非标准音位转录形式进行语音分析。

解决学术问题

该数据集解决了低资源语言在计算语言学研究中的标注数据稀缺问题。通过提供Mboshi语与法语的对齐语音和文本，研究人员能够开展跨语言的语音识别、语音对齐以及语言文档化实验。此外，数据集中的非标准音位转录形式为研究语言音系学提供了独特的视角，帮助学者在缺乏标准标注的情况下探索语音与文本之间的关系。

衍生相关工作

基于mboshi-french-parallel-corpus数据集，研究人员开展了多项经典工作，特别是在零资源语音挑战（Zero Resource Challenge）中的语音发现任务。该数据集为语音分割、词发现以及音素对齐等任务提供了基准数据，推动了低资源语言处理技术的发展。此外，相关研究还探索了如何利用非标准音位转录形式进行语音建模，为低资源语言的语音处理提供了新的研究方向。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集