five

fmagot01/common_voice_13_0_dv_preprocessed

收藏
Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fmagot01/common_voice_13_0_dv_preprocessed
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice Corpus 13.0是一个多语言的语音识别数据集,包含了108种语言的语音数据。数据集由众包方式创建,包含了MP3音频文件和相应的文本文件,并且许多录音还包含了年龄、性别和口音等人口统计元数据。数据集的总录音时长为27,141小时,其中17,689小时是经过验证的高质量数据。数据集支持自动语音识别任务,并且可以通过Hugging Face的`datasets`库进行加载和预处理。
提供机构:
fmagot01
原始信息汇总

数据集卡片 for Common Voice Corpus 13.0

数据集描述

数据集概述

Common Voice 数据集包含独特的 MP3 文件及其相应的文本文件。数据集中有 27141 小时的录音,其中许多录音还包括年龄、性别和口音等人口统计元数据,这些数据有助于提高语音识别引擎的准确性。

目前,该数据集包含 17689 小时的 108 种语言的验证数据,并且不断增加新的语音和语言。

支持的任务和排行榜

在 Common Voice 数据集上训练的模型的结果可通过 🤗 Autoevaluate Leaderboard 获得。

语言

数据集支持以下语言:

  • Abkhaz, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dioula, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Icelandic, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Korean, Kurmanji Kurdish, Kyrgyz, Lao, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Occitan, Odia, Persian, Polish, Portuguese, Punjabi, Quechua Chanka, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Turkmen, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh, Yoruba

数据集结构

数据实例

一个典型的数据点包含音频文件的 path 和其 sentence。其他字段包括 accent, age, client_id, up_votes, down_votes, gender, localesegment

python { client_id: d59478fbc1ee646a28a3c652a119379939123784d99131b865a89f8b21c81f69276c48bd574b81267d9d1a77b83b43e6d475a6cfc79c232ddbca946ae9c7afc5, path: et/clips/common_voice_et_18318995.mp3, audio: { path: et/clips/common_voice_et_18318995.mp3, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 48000 }, sentence: Tasub kokku saada inimestega, keda tunned juba ammust ajast saati., up_votes: 2, down_votes: 0, age: twenties, gender: male, accent: , locale: et, segment: }

数据字段

  • client_id (string): 录音者的唯一标识符。
  • path (string): 音频文件的路径。
  • audio (dict): 包含音频文件路径、解码的音频数组和采样率的字典。
  • sentence (string): 用户被提示说的句子。
  • up_votes (int64): 音频文件获得的赞数。
  • down_votes (int64): 音频文件获得的踩数。
  • age (string): 说话者的年龄(例如 teens, twenties, fifties)。
  • gender (string): 说话者的性别。
  • accent (string): 说话者的口音。
  • locale (string): 说话者的地区。
  • segment (string): 通常是一个空字段。

数据分割

语音数据被细分为 dev、train、test、validated、invalidated、reported 和其他部分。

  • validated 数据是经过审核并获得赞的高质量数据。
  • invalidated 数据是经过审核并获得踩的低质量数据。
  • reported 数据是因不同原因被报告的数据。
  • other 数据是尚未审核的数据。
  • dev, test, train 是经过审核、被认为高质量并被分割为 dev、test 和 train 的数据。

数据预处理建议

以下是 Hugging Face 团队推荐的数据预处理步骤,并附有示例代码:

  1. 许多示例句子以引号开头和结尾,例如 “the cat sat on the mat.“。建议去除这些引号,因为它们不影响句子的实际含义。
  2. 大多数训练句子以标点符号(. 或 ? 或 !)结尾,而只有少数句子不以标点符号结尾。建议在那些不以标点符号结尾的句子末尾添加句号(.)。

python from datasets import load_dataset

ds = load_dataset("mozilla-foundation/common_voice_13_0", "en", use_auth_token=True)

def prepare_dataset(batch): """Function to preprocess the dataset with the .map method""" transcription = batch["sentence"]

if transcription.startswith(") and transcription.endswith("): # we can remove trailing quotation marks as they do not affect the transcription transcription = transcription[1:-1]

if transcription[-1] not in [".", "?", "!"]: # append a full-stop to sentences that do not end in punctuation transcription = transcription + "."

batch["sentence"] = transcription

return batch

ds = ds.map(prepare_dataset, desc="preprocess dataset")

数据集创建

数据集策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。

使用数据集的注意事项

数据集的社会影响

数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

公共领域,CC-0

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作