Common Voice

github2020-06-02 更新2024-05-31 收录

下载链接：

https://github.com/ucasiggcas/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

由Mozilla众包收集的大型数据集，包含1361小时的音频，其中1091小时已验证，涵盖18种不同语言。数据集由志愿者根据在线脚本发言并验证其他人的语音。该数据集还包含关于性别或语言口音的信息（例如美式英语、英式英语等）。

A large-scale dataset crowdsourced by Mozilla, comprising 1361 hours of audio, of which 1091 hours have been validated, covering 18 different languages. The dataset was collected by volunteers who spoke based on online scripts and validated others' speech. It also includes information on gender or linguistic accents (e.g., American English, British English, etc.).

创建时间：

2019-11-12

原始信息汇总

数据集概述

语音数据集

阅读

Common Voice: 包含1361小时音频，其中1091小时已验证，涵盖18种语言。数据由志愿者在线按照脚本朗读并由其他志愿者验证。包含性别和口音信息。
LibriSpeech: 包含1000小时英语朗读书籍音频。
VCC Challenge 2016 dataset: 包含20位演讲者（10男10女），每位演讲者朗读五段摘录，每段约13分钟。
ZeroSpeech2019: 包含1男1女各2小时的录音，以及100位演讲者各10分钟的朗读文本。
The Helsinki Prosody Corpus: 是LibriTTS的清洁部分，带有高质量自动生成的韵律显著性标注。

预录语音重播

The VOiCES Corpus: 使用12种不同麦克风在真实条件下重新录制来自LibriSpeech的清洁语音，总计1440小时。

伪造语音

ASVspoof2015: 包含106位演讲者的真实语音及其通过不同伪造算法生成的伪造语音。
ASVspoof2017v2: 包含真实语音录音和在多种环境中使用不同设备录制的伪造语音。

情感语音

FAU Aibo Emotion Corpus: 包含9小时德语互动音频，涉及51名10-13岁儿童与宠物机器人。
Interface: 包含斯洛文尼亚语、英语、西班牙语和法语的表演语音，每位演讲者约4小时。
The Sincere Apology Corpus (SinA-C): 包含32位演讲者的英语语音，分为四种韵律风格，并标注了听众感知的真诚度。

医疗

VanDam Validation HomeBank Corpus: 包含15个家庭约7.5小时的录音，涉及有听力问题的儿童。
Parkinson Speech Dataset with Multiple Types of Sound Recordings: 包含40位演讲者的录音，其中20位患有帕金森病。

语音事件

SSPNet Vocalization Corpus: 包含120位演讲者尝试通过电话解决冬季生存任务的录音。
SSPNet Conflict Corpus: 包含45场瑞士电视政治辩论的1430个音频片段，每段30秒。
IBM Debate Speech Analysis Corpus: 包含高质量辩论音频，原用于自动语音识别。

计算机视觉数据集

人物图像

Stanford 40 Action Dataset: 包含9532张人物执行40种动作的图像，每张图像有边界框标注。
Inria Person dataset: 包含人物图像和视频以及无人物的负样本，标注为边界框。
People in Photo Albums (PIPA): 包含超过60000个人物实例，标注为头部边界框。
Caltech Pedestrian Dataset: 包含约10小时视频，640x480分辨率，标注了350,000个边界框。
Daimler Pedestrian Detection Dataset: 训练集包含15,560个行人样本，测试集包含21,790张图像，标注了56,492个行人边界框。
GM-ATCI Rear-view Pedestrian Dataset: 包含250个片段，总计76分钟，标注了超过200K行人边界框。

人物/车辆图像

GRAZ 01: 包含人物和/或自行车图像，以及无人物或自行车的图像，部分图像带有像素分割掩码。
GRAZ 02: 包含人物、自行车、汽车图像及无此类对象的图像，300张图像每类带有像素分割掩码。

面部图像

AffectNet: 包含超过100万张面部图像，其中一半标注了七种离散面部表情、效价和唤醒。
Indian Movie Face (IMFDB): 包含34512张印度演员面部图像，标注了表情、姿态、光照、年龄、分辨率、遮挡和化妆。
Japanese Female Facial Expression (JAFFE): 包含213张7种面部表情的图像，由10位日本女性模特摆拍。

人类动作视频

Kinetics-700: 包含约650,000个视频片段，涵盖700种人类动作类别。
UCF-101: 包含13320个视频，来自101种动作类别。
HMDB51: 包含6849个视频片段，分为51种动作类别。
AVA: 包含430个15分钟电影片段，密集标注了80种原子视觉动作。
Charades: 包含9848个室内活动视频，标注了动作、对象和文本描述。
Charades-Ego: 包含7860个视频，标注了157种动作类别。
20BN-something-something Dataset V2: 包含约220,000个视频，标注了174种基本动作。
Human Action Clips and Segments Dataset for Recognition and Temporal Localization: 包含1.55M个2秒片段标注和50K视频的完整动作段标注。
ActivityNet: 包含约648小时视频，标注了200种活动类别。

一般动作视频

Moments in Time dataset: 包含100万个标注的3秒视频，涉及人物、动物、物体或自然现象。

多模态数据集

访谈

VoxCeleb: 包含2000小时音频视频数据，来自7000+名名人的YouTube访谈。

情感语音

Multimodal EmotionLines Dataset (MELD): 包含《老友记》对话数据，标注了情感和情感标签。
IEMOCAP: 包含10名演员的12小时音频视频数据，涉及即兴和剧本对话。

医疗

Dem@Care: 包含希腊痴呆患者的音频视频和生理传感器数据。
DAIC-WOZ: 包含50小时临床访谈的转录音频视频数据，用于支持焦虑、抑郁和PTSD的诊断。

室内嘈杂环境

CHiME-5: 包含20个晚餐派对的音频数据和转录，每个至少2小时。

搜集汇总

数据集介绍

构建方式

Common Voice数据集由Mozilla通过众包方式构建，志愿者根据在线脚本朗读文本，并由其他志愿者进行语音验证。该数据集包含1361小时的音频数据，其中1091小时经过验证，涵盖18种不同语言。此外，数据集还提供了性别和口音（如美式英语、英式英语等）的元数据信息，为语音识别研究提供了丰富的多样性。

特点

Common Voice数据集的特点在于其大规模、多语言和多样性。它不仅包含大量经过验证的语音数据，还涵盖了不同性别和口音的信息，为语音识别模型的训练提供了广泛的覆盖范围。此外，数据集的众包构建方式确保了数据的真实性和多样性，使其成为语音技术研究中的宝贵资源。

使用方法

Common Voice数据集可用于训练和评估语音识别模型，尤其适用于多语言和口音敏感的语音系统。研究人员可以通过下载数据集，利用其提供的音频文件和元数据信息进行模型训练。此外，数据集还可用于语音合成、语音情感分析等任务。通过结合性别和口音信息，研究者可以进一步优化模型的鲁棒性和适应性。

背景与挑战

背景概述

Common Voice数据集由Mozilla基金会于2017年推出，旨在通过众包方式构建一个多语言、多样化的语音数据集，以推动语音识别技术的发展。该数据集的核心研究问题在于如何通过开放协作的方式，收集并验证大量真实世界的语音数据，涵盖不同语言、性别、口音等多样性特征。截至数据集发布时，Common Voice已包含1361小时的音频数据，其中1091小时经过验证，覆盖18种语言。该数据集对语音识别领域产生了深远影响，尤其是在低资源语言和多语言语音识别模型的开发中，提供了宝贵的训练资源。

当前挑战

Common Voice数据集在构建过程中面临多重挑战。首先，语音数据的多样性和质量控制是关键问题，如何确保来自不同背景的志愿者提供的语音数据具有一致的质量和准确性，是一个复杂的任务。其次，数据标注和验证过程需要大量人力，尤其是在多语言环境下，如何高效地处理不同语言的语音数据，确保其标注的准确性，是一个技术难题。此外，数据集的使用者需要面对如何处理不同口音、语速和背景噪声的挑战，这些因素可能影响语音识别模型的性能。最后，如何在保护用户隐私的同时，确保数据的开放性和可用性，也是数据集构建过程中需要平衡的重要问题。

常用场景

经典使用场景

Common Voice数据集在语音识别领域具有广泛的应用，尤其是在多语言语音模型的训练与评估中。该数据集通过众包方式收集了来自不同语言和口音的语音数据，涵盖了丰富的语音特征和背景噪声，为研究者提供了多样化的语音样本。其经典使用场景包括语音识别模型的训练、语音合成系统的开发，以及语音情感分析等领域。通过该数据集，研究者能够构建更加鲁棒和泛化能力强的语音处理模型。

衍生相关工作

Common Voice数据集催生了许多经典的研究工作。例如，基于该数据集的多语言语音识别模型在多个国际语音识别竞赛中取得了优异成绩。此外，研究者利用该数据集开发了多种语音合成系统，显著提升了合成语音的自然度和多样性。在语音情感分析领域，该数据集也被用于开发能够识别不同语言和口音下情感特征的算法，推动了语音情感识别技术的进步。

数据集最近研究