MLCommons/ml_spoken_words

Name: MLCommons/ml_spoken_words
Creator: MLCommons
Published: 2022-12-06 11:11:02
License: 暂无描述

Hugging Face2022-12-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MLCommons/ml_spoken_words

下载链接

链接失效反馈

官方服务：

资源简介：

Multilingual Spoken Words语料库是一个大型且不断增长的音频数据集，包含50种语言的超过340,000个关键词，总计23.4百万个1秒的语音样本（超过6,000小时）。该数据集适用于学术研究和商业应用，主要用于关键词识别和语音术语搜索。数据集通过应用强制对齐技术从众包句子级音频中生成每个单词的时间估计，并包含所有对齐信息。数据以`wav`（16KHz）和`opus`（48KHz）两种格式提供。

The Multilingual Spoken Words Corpus is a large and growing audio dataset containing over 340,000 keywords across 50 languages, with a total of 23.4 million 1-second speech samples (totaling over 6,000 hours). This dataset supports both academic research and commercial applications, and is primarily designed for keyword spotting and spoken term search. It generates time estimates for each word from crowdsourced sentence-level audio via forced alignment technology, and includes all alignment information. The data is provided in two formats: `wav` (16 KHz) and `opus` (48 KHz).

提供机构：

MLCommons

原始信息汇总

数据集概述

名称: Multilingual Spoken Words

描述: 这是一个包含50种语言的音频数据集，主要用于学术研究和商业应用中的关键词检测和口语搜索。该数据集包含超过340,000个关键词，总计23.4百万个1秒的口语例子（超过6,000小时）。数据集支持多种语言，并提供两种音频格式：wav (16KHz) 和 opus (48KHz)。

语言: 支持的语言包括但不限于阿拉伯语、阿萨姆语、布列塔尼语、加泰罗尼亚语、汉语、捷克语、荷兰语、英语、法语、德语、希腊语、印地语、意大利语、日语、韩语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语等。

许可证: CC-BY 4.0

大小: 10M<n<100M

任务: 音频分类（关键词检测、口语搜索）

数据结构:

数据实例: 每个实例包含文件路径、有效性、语言、说话者ID、性别、关键词和音频信息（路径、音频数组、采样率）。
数据字段: 包括文件路径、样本有效性、语言、说话者ID、性别、关键词和音频信息。
数据分割: 每个语言的数据被分割为训练/验证/测试部分。

数据创建:

来源数据: 数据来源于Common Voice数据集。
注释: 注释过程为机器生成。

使用注意事项:

数据集包含在线捐赠的语音，用户同意不尝试确定说话者的身份。

贡献者: 感谢@polinaeterna添加此数据集。

引用信息:

@inproceedings{mazumder2021multilingual, title={Multilingual Spoken Words Corpus}, author={Mazumder, Mark and Chitlangia, Sharad and Banbury, Colby and Kang, Yiping and Ciro, Juan Manuel and Achorn, Keith and Galvez, Daniel and Sabini, Mark and Mattson, Peter and Kanter, David and others}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021} }

搜集汇总

数据集介绍

构建方式

在语音识别与关键词检测领域，构建大规模多语言数据集对于推动技术发展至关重要。Multilingual Spoken Words数据集源自Common Voice项目，通过强制对齐技术从众包收集的句子级音频中提取单词级时间戳，进而分割出独立的单词片段。该过程利用机器自动生成标注，确保了超过340,000个关键词、总计23.4百万个1秒语音样本的精确切分，涵盖了50种语言，为研究提供了高质量的语音数据基础。

特点

该数据集以其广泛的语言覆盖和丰富的语音样本著称，囊括了全球超过50亿人口使用的50种语言，从高资源语言如英语、法语到低资源语言如迪维希语、奥里亚语均有涉及。数据规模达到6,000小时以上，且每个样本均附带说话人身份、性别及关键词标签，支持关键词检测和口语词搜索等任务。其多格式存储（WAV与Opus）及灵活的语言选择机制，为跨语言语音研究提供了极大便利。

使用方法

研究人员可通过Hugging Face的`load_dataset`函数便捷加载该数据集，通过指定语言代码（如`tt_wav`）或传递语言列表（如`["ar", "tt", "br"]`）来定制所需数据子集。支持WAV（16KHz）和Opus（48KHz）两种音频格式，用户可根据计算需求选择。数据已预先划分为训练、验证和测试集，适用于模型训练与评估，且遵循CC-BY 4.0许可，保障了学术与商业应用的合法性。

背景与挑战

背景概述

在语音技术迅猛发展的时代背景下，多语言语音识别与关键词检测成为推动全球信息无障碍交互的核心技术。由MLCommons联盟联合哈佛大学等研究机构于2021年共同构建的Multilingual Spoken Words数据集，旨在应对多语言环境下语音模型训练数据稀缺的难题。该数据集涵盖50种语言，包含超过23.4百万条1秒语音样本，覆盖全球超过50亿使用人口，其核心研究聚焦于跨语言关键词识别与口语词搜索任务。通过从Common Voice数据集中提取并利用强制对齐技术生成词级标注，该资源显著促进了低资源语言语音模型的发展，为消费电子、客服自动化等应用领域提供了关键数据支撑。

当前挑战

该数据集致力于解决多语言关键词识别与口语词搜索中的核心挑战，包括低资源语言语音数据匮乏导致的模型泛化能力不足，以及跨语言音素与声学特征差异对统一建模构成的复杂性。在构建过程中，面临的主要挑战源于原始语句级音频数据的词级切分精度问题，强制对齐技术在不同语言韵律结构下的适应性差异可能导致标注误差。同时，数据集中语言资源分布极不均衡，高资源语言与低资源语言样本量差异悬殊，加剧了模型训练中的偏差风险。此外，涉及50种语言的语音数据收集与标准化处理，需克服方言变体、录音环境噪声及说话人多样性带来的质量控制难题。

常用场景

经典使用场景

在语音技术领域，多语言关键词检测是智能设备交互的核心环节。Multilingual Spoken Words数据集以其覆盖50种语言、超过34万个关键词的庞大规模，为研究者提供了标准化的训练与评估基准。该数据集通过强制对齐技术从句子级音频中提取单词级片段，形成大量1秒时长的语音样本，极大地促进了关键词检测模型的跨语言泛化能力研究。

解决学术问题

该数据集有效应对了低资源语言语音技术研究中的数据稀缺困境。通过整合Common Voice等开源语料，它系统性地提供了包括阿拉伯语、鞑靼语、布列塔尼语等小众语言的标注数据，为语音识别领域的多语言建模、零样本迁移学习等前沿课题提供了实证基础。其精心划分的训练验证测试集，助力学术界深入探索语音模型在语言多样性环境下的鲁棒性与适应性。

衍生相关工作

基于该数据集衍生的经典工作主要集中在高效关键词检测架构设计领域。研究者们利用其多语言特性开发了轻量级神经网络模型，实现了在边缘设备上的实时语音唤醒。相关成果已形成系列学术论文，推动了语音技术社区对模型压缩、多任务学习等方法的深入探索，并为后续更大规模的多模态语音数据集构建提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集