Seon25/common_voice_16_0
收藏Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Seon25/common_voice_16_0
下载链接
链接失效反馈官方服务:
资源简介:
Common Voice数据集包含独特的MP3文件和相应的文本文件。数据集中的30328小时录音还包括年龄、性别和口音等人口统计元数据,这些数据可以帮助提高语音识别引擎的准确性。数据集目前包含120种语言的19673小时已验证数据,但会不断添加更多语音和语言。数据集通过众包方式创建,支持多语言,并且是公开的,遵循CC0许可证。
Common Voice数据集包含独特的MP3文件和相应的文本文件。数据集中的30328小时录音还包括年龄、性别和口音等人口统计元数据,这些数据可以帮助提高语音识别引擎的准确性。数据集目前包含120种语言的19673小时已验证数据,但会不断添加更多语音和语言。数据集通过众包方式创建,支持多语言,并且是公开的,遵循CC0许可证。
提供机构:
Seon25
原始信息汇总
数据集概述
名称: Common Voice Corpus 16
语言: 数据集包含多种语言,包括但不限于Abkhaz, Afrikaans, Albanian, Amharic, Arabic等。具体语言列表请参考提供的README文件内容。
许可: 数据集采用CC0-1.0许可。
多语言性: 数据集支持多语言。
数据结构: 每个数据实例包括音频文件路径、句子内容以及其他元数据如年龄、性别、口音等。具体数据字段包括client_id, path, audio, sentence, up_votes, down_votes, age, gender, accent, locale, 和 segment。
数据分割: 数据集被分割为dev, train, test, validated, invalidated, reported 和其他部分。其中validated数据是经过审核的高质量数据,invalidated数据是审核后质量较低的数据。
数据集使用
数据集可以通过datasets库进行加载和预处理。例如,使用load_dataset函数可以下载特定语言的数据,如Hindi。此外,数据集支持流式加载,允许按需加载数据实例。
数据预处理
建议的数据预处理步骤包括去除句子两端的引号以及在句子末尾不包含标点符号的情况下添加句号。这些步骤可以通过datasets库的.map方法实现。
数据集创建
数据集的创建涉及众包方式收集和标注数据。数据集中包含个人和敏感信息,使用时需遵守不尝试确定说话者身份的协议。
使用考虑
使用数据集时需注意其社会影响和潜在偏见,以及遵守不尝试确定说话者身份的协议。
附加信息
数据集的版权信息为公共领域,引用信息请参考提供的README文件内容。
搜集汇总
数据集介绍

背景与挑战
背景概述
Common Voice Corpus 16是一个大规模多语言开源语音数据集,包含19673个已验证小时的语音数据,覆盖120种语言,每个数据点由音频文件和对应文本组成,并附带年龄、性别等人口统计元数据,旨在提升语音识别模型的准确性和多样性。数据集基于CC-0许可证,允许自由使用和分发。
以上内容由遇见数据集搜集并总结生成



