five

ferno22/common_voice_13_0_dv_preprocessed

收藏
Hugging Face2023-09-27 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ferno22/common_voice_13_0_dv_preprocessed
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice Corpus 13.0是一个多语言的语音识别数据集,包含了108种语言的语音数据。数据集由众包方式创建,包含了MP3音频文件和对应的文本文件,并且许多录音还包含了年龄、性别和口音等人口统计元数据,这些信息有助于提高语音识别引擎的准确性。数据集的总录音时长为27,141小时,其中17,689小时已经过验证。数据集支持自动语音识别任务,并且可以通过Hugging Face的`datasets`库进行加载和预处理。
提供机构:
ferno22
原始信息汇总

数据集卡片 for Common Voice Corpus 13.0

数据集描述

数据集概述

Common Voice 数据集包含独特的 MP3 文件及其对应的文本文件。数据集中有 27141 小时的录音,其中许多录音还包括年龄、性别和口音等人口统计元数据,这些数据有助于提高语音识别引擎的准确性。

目前,该数据集包含 17689 小时的验证数据,涵盖 108 种语言,并且不断增加新的语音和语言。

支持的任务和排行榜

在 Common Voice 数据集上训练的模型的结果可以通过 🤗 Autoevaluate Leaderboard 查看。

语言

数据集涵盖以下语言:

  • Abkhaz, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dioula, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Icelandic, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Korean, Kurmanji Kurdish, Kyrgyz, Lao, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Occitan, Odia, Persian, Polish, Portuguese, Punjabi, Quechua Chanka, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Turkmen, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh, Yoruba

如何使用

使用 datasets 库可以轻松加载和预处理数据集。例如,下载 Hindi 配置:

python from datasets import load_dataset

cv_13 = load_dataset("mozilla-foundation/common_voice_13_0", "hi", split="train")

数据实例

一个典型的数据点包含音频文件的路径和对应的句子。其他字段包括口音、年龄、客户端ID、点赞数、踩数、性别、地区和段落。

python { client_id: d59478fbc1ee646a28a3c652a119379939123784d99131b865a89f8b21c81f69276c48bd574b81267d9d1a77b83b43e6d475a6cfc79c232ddbca946ae9c7afc5, path: et/clips/common_voice_et_18318995.mp3, audio: { path: et/clips/common_voice_et_18318995.mp3, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 48000 }, sentence: Tasub kokku saada inimestega, keda tunned juba ammust ajast saati., up_votes: 2, down_votes: 0, age: twenties, gender: male, accent: , locale: et, segment: }

数据字段

  • client_id (string): 录音者的唯一标识符
  • path (string): 音频文件的路径
  • audio (dict): 包含音频文件路径、解码后的音频数组和采样率的字典
  • sentence (string): 用户被提示说的句子
  • up_votes (int64): 音频文件获得的点赞数
  • down_votes (int64): 音频文件获得的踩数
  • age (string): 说话者的年龄
  • gender (string): 说话者的性别
  • accent (string): 说话者的口音
  • locale (string): 说话者的地区
  • segment (string): 通常为空字段

数据分割

语音数据被细分为 dev、train、test、validated、invalidated、reported 和其他部分。

  • validated 数据是经过审核者验证并获得点赞的高质量数据。
  • invalidated 数据是经过审核者验证并获得踩的低质量数据。
  • reported 数据是被举报的数据。
  • other 数据是尚未审核的数据。
  • dev、test、train 数据是经过审核、被认为高质量并分为 dev、test 和 train 的数据。

数据预处理建议

建议去除句子开头和结尾的引号,并在没有标点符号的句子末尾添加句号。

python from datasets import load_dataset

ds = load_dataset("mozilla-foundation/common_voice_13_0", "en", use_auth_token=True)

def prepare_dataset(batch): transcription = batch["sentence"]

if transcription.startswith(") and transcription.endswith("): transcription = transcription[1:-1]

if transcription[-1] not in [".", "?", "!"]: transcription = transcription + "."

batch["sentence"] = transcription

return batch

ds = ds.map(prepare_dataset, desc="preprocess dataset")

数据集创建

数据收集和标准化

[需要更多信息]

源语言生产者

[需要更多信息]

标注

标注过程

[需要更多信息]

标注者

[需要更多信息]

个人和敏感信息

数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。

数据集的社会影响

数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。

讨论偏见

[需要更多信息]

其他已知限制

[需要更多信息]

数据集策展人

[需要更多信息]

许可信息

公共领域,CC-0

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是Common Voice 13.0的预处理版本,专门用于自动语音识别任务,包含7,116行数据,以Parquet格式存储,并采用CC0-1.0许可证。其特点包括多语言支持、音频和文本对以及人口统计元数据,经过预处理后可直接用于模型训练,适用于语音识别技术的研究和开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作