ssahir/common_voice_13_0_dv_preprocessed
收藏数据集卡片 for Common Voice Corpus 13.0
数据集描述
数据集摘要
Common Voice 数据集包含独特的 MP3 文件及其对应的文本文件。数据集中有 27141 小时的录音,还包括年龄、性别和口音等人口统计元数据,这些数据有助于提高语音识别引擎的准确性。
目前,该数据集包含 17689 小时的 108 种语言的验证数据,并且不断增加新的语音和语言。请查看 Languages 页面以请求新语言或开始贡献。
支持的任务和排行榜
在 Common Voice 数据集上训练的模型的结果可通过 🤗 Autoevaluate Leaderboard 获得。
语言
Abkhaz, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dioula, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Icelandic, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Korean, Kurmanji Kurdish, Kyrgyz, Lao, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Occitan, Odia, Persian, Polish, Portuguese, Punjabi, Quechua Chanka, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Turkmen, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh, Yoruba
数据集结构
数据实例
一个典型的数据点包含音频文件的 path 和其 sentence。其他字段包括 accent, age, client_id, up_votes, down_votes, gender, locale 和 segment。
python { client_id: d59478fbc1ee646a28a3c652a119379939123784d99131b865a89f8b21c81f69276c48bd574b81267d9d1a77b83b43e6d475a6cfc79c232ddbca946ae9c7afc5, path: et/clips/common_voice_et_18318995.mp3, audio: { path: et/clips/common_voice_et_18318995.mp3, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 48000 }, sentence: Tasub kokku saada inimestega, keda tunned juba ammust ajast saati., up_votes: 2, down_votes: 0, age: twenties, gender: male, accent: , locale: et, segment: }
数据字段
client_id(string): 录音者的唯一标识符。path(string): 音频文件的路径。audio(dict): 包含音频文件路径、解码的音频数组和采样率的字典。sentence(string): 用户被提示说的句子。up_votes(int64): 音频文件获得的赞数。down_votes(int64): 音频文件获得的踩数。age(string): 说话者的年龄。gender(string): 说话者的性别。accent(string): 说话者的口音。locale(string): 说话者的地区。segment(string): 通常是一个空字段。
数据分割
语音数据已被细分为 dev、train、test、validated、invalidated、reported 和其他部分。
validated数据是经过审核者验证并获得赞的高质量数据。invalidated数据是经过审核者验证并获得踩的低质量数据。reported数据是因不同原因被报告的数据。other数据是尚未审核的数据。dev,test,train是经过审核、被认为高质量并分为 dev、test 和 train 的数据。
数据预处理建议
以下是 Hugging Face 团队建议的数据预处理步骤,并附有示例代码片段。
许多示例句子末尾有引号,例如 “the cat sat on the mat.“。这些引号并不改变句子的实际含义,建议去掉引号,留下 the cat sat on the mat。
此外,大多数训练句子以标点符号(. 或 ? 或 !)结尾,而只有少数句子没有。在 dev 集中,几乎所有句子都以标点符号结尾。因此,建议在少数没有标点符号的训练示例末尾添加句号(.)。
python from datasets import load_dataset
ds = load_dataset("mozilla-foundation/common_voice_13_0", "en", use_auth_token=True)
def prepare_dataset(batch): """Function to preprocess the dataset with the .map method""" transcription = batch["sentence"]
if transcription.startswith(") and transcription.endswith("): # we can remove trailing quotation marks as they do not affect the transcription transcription = transcription[1:-1]
if transcription[-1] not in [".", "?", "!"]: # append a full-stop to sentences that do not end in punctuation transcription = transcription + "."
batch["sentence"] = transcription
return batch
ds = ds.map(prepare_dataset, desc="preprocess dataset")
数据集创建
策划理由
[需要更多信息]
源数据
初始数据收集和规范化
[需要更多信息]
源语言生产者是谁?
[需要更多信息]
注释
注释过程
[需要更多信息]
注释者是谁?
[需要更多信息]
个人和敏感信息
数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。
使用数据时的注意事项
数据集的社会影响
数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。
偏见讨论
[需要更多信息]
其他已知限制
[需要更多信息]
附加信息
数据集策展人
[需要更多信息]
许可信息
公共领域,CC-0
引用信息
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }



