CommonVoice数据集

Name: CommonVoice数据集
Creator: Idiap研究所
Published: 2021-07-17 03:39:30
License: 暂无描述

arXiv2021-07-17 更新2024-07-25 收录

下载链接：

https://github.com/idiap/icassp-oov-recognition

下载链接

链接失效反馈

官方服务：

资源简介：

本研究采用CommonVoice数据集，旨在创建一个包含大量真实OOV-words的测试数据集。该数据集通过从大型语料库中提取的大词汇量确保OOV的真实性，英语部分使用Librispeech文本语料库，德语部分使用Europarl语料库。训练和测试集的大小分别为280/250和2.5/3小时，OOV比例为12.2/13.6%。数据集的应用领域主要集中在自动语音识别系统中OOV-word的识别问题，通过提供可重复使用的数据集和工具，以评估和改进OOV识别技术。

This study adopts the CommonVoice dataset to construct a test dataset containing a large number of authentic out-of-vocabulary (OOV) words. The authenticity of these OOV words is ensured by a large vocabulary extracted from large-scale corpora: the English subset uses the Librispeech text corpus, while the German subset employs the Europarl corpus. For the English and German subsets, the training set durations are 280 hours and 250 hours respectively, with the test set durations being 2.5 hours and 3 hours, and the OOV word ratios reaching 12.2% and 13.6% respectively. This dataset is primarily targeted at the OOV word recognition task in automatic speech recognition (ASR) systems, providing reusable datasets and supporting tools to facilitate the evaluation and advancement of OOV recognition technologies.

提供机构：

Idiap研究所

创建时间：

2021-07-17

原始信息汇总

icassp-oov-recognition 数据集概述

数据内容

语言: 英语和德语
数据格式: Kaldi 格式
包含内容:
- 训练集和测试集（音频文件未包含）
- 词典
- 测试集中相对于词典的 OOV 单词列表
- OOV 单词的词典
语言模型数据:
- 英语语言模型数据: 链接
- 德语语言模型数据: 链接

脚本功能

从包含 CommonVoice 数据的 Kaldi 格式数据文件夹创建训练/测试分区，build_cv_test_train.py
创建可以插入现有 HCLG 的 HCL 图，compose_hcl.sh
从解码的格子中恢复附加到 <unk> 标记的电话弧的单词，recover_unk_words.sh

库

包含包装 OpenFST 的代码，以及修改图形的函数（insert, replace_single, add_boost）
编译要求:
- 在 libs/ 目录中添加指向 pybind11 仓库的符号链接
- LD_LIBRARY_PATH 需要包含 OpenFST 库的路径，并将编译的 .so 文件复制到 site-packages/ 目录

如何向 HCLG 添加单词

需要使用单音素模型
语言模型需要使用 pocolm 训练，并带有 --limit-unk-history 选项
修改 utils/mkgraph.sh 并注释 L167: rm $dir/HCLGa.fst $dir/Ha.fst 2>/dev/null || true
在 HCLG 所在的图形目录中，需要为新添加的单词分配 ID 并追加到 words.txt 文件中
使用 script/compose_hcl.sh 从要添加的 OOV 单词的词典创建 HCL
使用 fst 包装器修改 HCLGa.fst
添加自环并替换现有的 HCLG.fst，然后可以正常运行解码

搜集汇总

数据集介绍

构建方式

在语音识别领域，处理训练集外词汇（OOV）是提升系统鲁棒性的关键挑战。CommonVoice数据集的构建旨在为多语言环境下的OOV识别研究提供标准化测试基准。该数据集基于CommonVoice开源语音库，通过筛选包含至少一个OOV词汇的语音片段来构建测试集，同时确保训练集与测试集之间无说话人重叠。对于英语和德语，分别采用Librispeech词典和Europarl语料库的高频词作为基础词汇表，以此确保OOV词汇的真实性与多样性。训练集与测试集的时长分别为280/250分钟和2.5/3小时，OOV比例达到12.2%至13.6%，涵盖了现代新词与复合词等典型OOV类型。

特点

CommonVoice数据集的核心特点在于其专注于高比例真实OOV词汇的评估场景。数据集的OOV词汇分布较为平坦，英语部分以“firefox”、“website”等现代新词为主，反映了词汇随时间演变的特性；德语部分则多包含复合词，体现了语言结构的复杂性。这种设计使得数据集能够模拟实际应用中ASR系统面临的词汇更新与领域迁移问题。此外，数据集配套发布了texterrors工具，支持计算OOV-CER等新型评估指标，实现了对OOV识别性能的独立量化，为方法比较提供了可靠依据。

使用方法

该数据集主要用于评估语音识别系统在OOV词汇识别上的性能。研究者可基于训练集构建混合ASR系统，并利用测试集验证不同OOV处理技术的有效性。典型方法包括：在无先验知识场景下，比较词基与子词模型的识别能力，或采用基于音素语言模型的未知词恢复策略；在已知OOV词汇列表时，可通过修改加权有限状态转换器（WFST）的词典、语言模型或解码图来集成先验信息。数据集支持对修改L和G、调整HCLG及优化子词模型语言模型等多种技术路径进行系统对比，从而推动OOV识别算法的创新与优化。

背景与挑战

背景概述

CommonVoice数据集由Mozilla基金会于2017年发起，旨在构建一个大规模、多语言的开放语音语料库，以推动自动语音识别（ASR）技术的民主化发展。该数据集通过众包方式收集全球志愿者的语音录音，覆盖了数十种语言，其核心研究问题在于解决语音识别系统中词汇外（OOV）词语的识别难题。在ASR领域，传统系统常因训练数据中未包含新词或罕见词而识别失败，这限制了其在动态语言环境中的应用。CommonVoice通过提供高OOV比例的测试集，为研究者评估和改进OOV识别方法提供了标准化基准，显著促进了多语言语音技术的进步，并成为开源语音社区的重要资源。

当前挑战

CommonVoice数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，该数据集致力于解决自动语音识别中词汇外（OOV）词语的识别挑战。由于语言不断演变，ASR系统常无法识别训练集未涵盖的新词或专业术语，这导致在实际应用中错误率升高，尤其影响多语言和特定领域（如科技名词、复合词）的识别精度。其二，在构建过程中，数据集需克服众包数据质量控制的难题，包括录音环境的噪声干扰、说话者口音多样性以及语音文本对齐的准确性。此外，确保不同语言间数据平衡性和代表性，同时维护用户隐私与数据合规性，也是其持续发展中的关键挑战。

常用场景

经典使用场景

在语音识别领域，CommonVoice数据集常被用于构建高比例集外词（OOV）测试集，以评估不同模型在识别未训练词汇时的性能。该数据集通过从多语言语音语料中筛选包含OOV词汇的语句，为研究者提供了标准化的评估基准，尤其在比较词基模型与子词模型在OOV识别任务中的表现时，CommonVoice成为验证模型泛化能力的关键工具。

解决学术问题

CommonVoice数据集有效解决了自动语音识别系统中集外词识别评估缺乏统一标准的问题。通过提供包含大量现实OOV词汇的测试集，该数据集使研究者能够量化不同技术（如修改加权有限状态转换器或使用子词模型）对OOV识别性能的影响。其衍生的OOV-CER指标进一步分离了OOV词汇与词汇内词汇的错误率，为优化模型在动态语言环境中的适应性提供了科学依据。

衍生相关工作

基于CommonVoice数据集，研究者们发展了一系列经典工作，包括改进子词语言模型以增强OOV识别能力、开发动态WFST修改工具（如texterrors）用于误差度量计算，以及探索单音素模型在集外词处理中的有效性。这些工作不仅推动了混合ASR系统的优化，也为端到端语音识别框架提供了数据支持，促进了语音技术在多语言环境中的创新与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集