ferno22/common_voice_13_0_dv_preprocessed
收藏数据集卡片 for Common Voice Corpus 13.0
数据集描述
数据集概述
Common Voice 数据集包含独特的 MP3 文件及其对应的文本文件。数据集中有 27141 小时的录音,其中许多录音还包括年龄、性别和口音等人口统计元数据,这些数据有助于提高语音识别引擎的准确性。
目前,该数据集包含 17689 小时的验证数据,涵盖 108 种语言,并且不断增加新的语音和语言。
支持的任务和排行榜
在 Common Voice 数据集上训练的模型的结果可以通过 🤗 Autoevaluate Leaderboard 查看。
语言
数据集涵盖以下语言:
- Abkhaz, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dioula, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Icelandic, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Korean, Kurmanji Kurdish, Kyrgyz, Lao, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Occitan, Odia, Persian, Polish, Portuguese, Punjabi, Quechua Chanka, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Turkmen, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh, Yoruba
如何使用
使用 datasets 库可以轻松加载和预处理数据集。例如,下载 Hindi 配置:
python from datasets import load_dataset
cv_13 = load_dataset("mozilla-foundation/common_voice_13_0", "hi", split="train")
数据实例
一个典型的数据点包含音频文件的路径和对应的句子。其他字段包括口音、年龄、客户端ID、点赞数、踩数、性别、地区和段落。
python { client_id: d59478fbc1ee646a28a3c652a119379939123784d99131b865a89f8b21c81f69276c48bd574b81267d9d1a77b83b43e6d475a6cfc79c232ddbca946ae9c7afc5, path: et/clips/common_voice_et_18318995.mp3, audio: { path: et/clips/common_voice_et_18318995.mp3, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 48000 }, sentence: Tasub kokku saada inimestega, keda tunned juba ammust ajast saati., up_votes: 2, down_votes: 0, age: twenties, gender: male, accent: , locale: et, segment: }
数据字段
client_id(string): 录音者的唯一标识符path(string): 音频文件的路径audio(dict): 包含音频文件路径、解码后的音频数组和采样率的字典sentence(string): 用户被提示说的句子up_votes(int64): 音频文件获得的点赞数down_votes(int64): 音频文件获得的踩数age(string): 说话者的年龄gender(string): 说话者的性别accent(string): 说话者的口音locale(string): 说话者的地区segment(string): 通常为空字段
数据分割
语音数据被细分为 dev、train、test、validated、invalidated、reported 和其他部分。
- validated 数据是经过审核者验证并获得点赞的高质量数据。
- invalidated 数据是经过审核者验证并获得踩的低质量数据。
- reported 数据是被举报的数据。
- other 数据是尚未审核的数据。
- dev、test、train 数据是经过审核、被认为高质量并分为 dev、test 和 train 的数据。
数据预处理建议
建议去除句子开头和结尾的引号,并在没有标点符号的句子末尾添加句号。
python from datasets import load_dataset
ds = load_dataset("mozilla-foundation/common_voice_13_0", "en", use_auth_token=True)
def prepare_dataset(batch): transcription = batch["sentence"]
if transcription.startswith(") and transcription.endswith("): transcription = transcription[1:-1]
if transcription[-1] not in [".", "?", "!"]: transcription = transcription + "."
batch["sentence"] = transcription
return batch
ds = ds.map(prepare_dataset, desc="preprocess dataset")
数据集创建
数据收集和标准化
[需要更多信息]
源语言生产者
[需要更多信息]
标注
标注过程
[需要更多信息]
标注者
[需要更多信息]
个人和敏感信息
数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。
数据集的社会影响
数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。
讨论偏见
[需要更多信息]
其他已知限制
[需要更多信息]
数据集策展人
[需要更多信息]
许可信息
公共领域,CC-0
引用信息
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }




