Common Voice Dataset|语音识别数据集|众包数据数据集

github2024-05-14 更新2024-05-31 收录

语音识别

众包数据

下载链接：

https://github.com/Common-Voice/cv-dataset

下载链接

链接失效反馈

资源简介：

该数据集包含来自Common Voice社区在web平台上的语音贡献，所有语音贡献无论验证状态如何都被包含在内。数据集大约每六个月发布一次，包含各种语音文件和相关的元数据，如年龄、性别、口音等。

This dataset encompasses voice contributions from the Common Voice community on the web platform, including all voice contributions regardless of their verification status. The dataset is released approximately every six months and contains a variety of voice files along with related metadata such as age, gender, accent, etc.

创建时间：

2020-07-17

原始信息汇总

Common Voice Dataset 概述

数据集描述

来源：Common Voice社区通过web平台贡献的语音数据。
更新频率：大约每六个月发布新数据集。
数据处理：所有语音贡献，不论验证状态，均包含在数据集中。数据集通过Common Voice Bundler工具打包并上传至S3。

数据集结构

文件格式：每个下载的.tar.gz文件包含以下结构：

[lang].tar.gz/ ├── clips/ │ ├── *.mp3 files |__ dev.tsv |__ invalidated.tsv |__ other.tsv |__ test.tsv |__ train.tsv |__ validated.tsv |__ reported.tsv (as of Corpus 5.0)
TSV文件内容：每个.tsv文件包含音频文件列表、注释（原始源句子）、哈希client_id、验证数据及相关人口统计信息。

数据集字段

每行代表一个音频剪辑，包含以下信息：
- client_id
- path
- text
- up_votes
- down_votes
- age
- gender
- accent
- segment

数据集使用

机器学习应用：使用Mozilla Corpora Creator工具处理元数据，生成测试、训练和开发集。
数据集划分：测试/训练/开发集的生成是非确定性的，以避免重复和人口统计偏差。

数据集访问

下载建议：对于大型文件下载，建议使用curl命令行工具以支持断点续传。

引用信息

学术引用：如在学术工作中使用，请引用Common Voice: A Massively-Multilingual Speech Corpus。

AI搜集汇总

数据集介绍

构建方式

Common Voice数据集的构建依托于Mozilla的Common Voice社区平台，通过全球志愿者的语音贡献汇聚而成。每个语音片段均通过Common Voice Bundler工具打包并上传至S3存储，确保数据的高效管理和分发。数据集的更新周期约为每六个月一次，涵盖多种语言，并根据ISO 639-1代码进行分类。每个语音片段的元数据包括转录文本、用户验证信息、以及可选的年龄、性别和口音等人口统计信息。数据集的构建过程中，Mozilla Corpora Creator工具被用于生成训练、验证和测试集，确保数据的去重和说话者多样性。

特点

Common Voice数据集的核心特点在于其大规模的多语言覆盖和社区驱动的验证机制。数据集不仅包含经过验证的语音片段，还保留了未验证和无效的片段，以提供更全面的研究视角。此外，数据集的非确定性划分策略确保了每次发布的训练、验证和测试集的多样性和公平性，避免了潜在的偏见。数据集还特别关注隐私保护，对于说话者少于5人的语言，人口统计信息将被移除。

使用方法

使用Common Voice数据集时，用户可通过访问其官方网站下载完整的.tar.gz文件，文件结构包括语音片段的MP3文件和多个TSV文件，分别记录了验证、无效、其他等不同状态的语音片段信息。用户可根据需求提取特定语言或状态的语音数据，并结合提供的元数据进行机器学习模型的训练和评估。为确保下载的连续性，建议使用curl命令进行下载，并利用其断点续传功能。

背景与挑战

背景概述

Common Voice Dataset 是由 Mozilla 基金会主导的一个大规模多语言语音数据集，旨在推动语音识别技术的普及与多样化。该数据集通过其开放的网络平台收集来自全球志愿者的语音贡献，涵盖多种语言和方言。自发布以来，Common Voice Dataset 每六个月更新一次，不断扩充其语音样本库，为语音识别领域的研究提供了丰富的资源。其核心研究问题在于如何通过众包方式构建高质量、多样化的语音数据集，以支持多语言语音识别模型的训练与评估。该数据集的发布对语音识别技术的民主化和多语言支持具有重要意义，尤其在非主流语言的语音识别研究中发挥了关键作用。

当前挑战

Common Voice Dataset 在构建过程中面临多项挑战。首先，数据集的多样性要求确保不同语言、方言、年龄、性别和口音的语音样本均衡分布，以避免模型训练中的偏见。其次，数据的质量控制是一个持续的挑战，需通过多轮验证机制筛选出高质量的语音样本，同时处理无效或低质量的样本。此外，数据集的隐私保护也是一个重要问题，尤其是在涉及少数语言和少数族群时，需确保用户隐私不被泄露。最后，数据集的下载和使用便利性也是一个技术挑战，尤其是在处理大规模数据文件时，如何优化下载体验以支持研究者和开发者的需求。

常用场景

经典使用场景

Common Voice数据集的经典使用场景主要集中在语音识别和语音合成领域。该数据集为研究人员和开发者提供了丰富的多语言语音数据，支持构建和训练语音识别模型，从而实现从语音到文本的转换。此外，它还可用于语音合成模型的训练，生成自然流畅的语音输出。通过这些应用，Common Voice数据集极大地推动了多语言语音技术的进步。

衍生相关工作

基于Common Voice数据集，许多研究工作得以展开，包括多语言语音识别模型的优化、语音合成技术的改进以及语音数据的质量控制。例如，有研究利用该数据集进行多语言语音识别模型的训练，提升了模型在低资源语言上的表现。此外，还有研究探讨了如何利用数据集中的元数据进行语音数据的自动标注和质量评估，进一步提高了语音数据的利用效率。

数据集最近研究

最新研究方向

在语音识别与自然语言处理领域，Common Voice Dataset 的最新研究方向主要集中在多语言语音数据的深度利用与模型优化上。随着全球语言多样性的日益重视，研究者们正致力于通过该数据集提升多语言语音识别的准确性与鲁棒性，尤其是在低资源语言的处理上。此外，数据集中的语音质量控制与隐私保护机制也成为研究热点，旨在通过更精细的语音数据筛选与处理技术，提升模型的泛化能力与应用价值。这些研究不仅推动了语音技术的全球化应用，也为跨文化交流与语言保护提供了技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息，用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

music-genres-dataset

包含1494个音乐流派的数据集，每个流派有200首歌曲。每首歌曲提供以下属性：艺术家、歌曲名称、在列表中的位置、主流派、子流派（含流行度计数）、标签（非现有流派的标签，如情感等，也含流行度计数）。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录