Seon25/hausa_2_eng_2
收藏Hugging Face2024-05-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Seon25/hausa_2_eng_2
下载链接
链接失效反馈官方服务:
资源简介:
Common Voice数据集包含独特的MP3文件和相应的文本文件。数据集中的许多录音还包括年龄、性别和口音等人口统计元数据,这些数据可以帮助提高语音识别引擎的准确性。目前,数据集包含120种语言的19673个已验证小时数的录音,但会不断添加更多语音和语言。数据集由众包方式创建,支持多语言,并且提供了如何使用该数据集的示例代码。
Common Voice数据集包含独特的MP3文件和相应的文本文件。数据集中的许多录音还包括年龄、性别和口音等人口统计元数据,这些数据可以帮助提高语音识别引擎的准确性。目前,数据集包含120种语言的19673个已验证小时数的录音,但会不断添加更多语音和语言。数据集由众包方式创建,支持多语言,并且提供了如何使用该数据集的示例代码。
提供机构:
Seon25
原始信息汇总
数据集概述
数据集名称
- 名称: Common Voice Corpus 16
- 别名: Hausa to English
数据集摘要
- 内容: 包含MP3音频文件及其对应的文本文件,总计30328小时录音,包含年龄、性别和口音等人口统计元数据。
- 语言数量: 目前包含19673小时的验证数据,涵盖120种语言。
支持的语言
- 语言列表: 包括Abkhaz, Afrikaans, Albanian等120种语言。
- BCP47代码: 包括zh-CN, zh-HK, zh-TW等多种语言代码。
数据集结构
- 数据实例: 每个数据点包括音频文件路径和对应的句子,以及其他如口音、年龄、客户端ID等元数据。
- 数据字段: 包括client_id, path, audio, sentence等字段。
- 数据分割: 数据被分为dev, train, test, validated, invalidated, reported等部分。
数据集创建
- 许可证: Apache-2.0
- 多语言性: 多语言
- 注释创建者: 众包
- 语言创建者: 众包
使用指南
- 加载数据: 使用
datasets库的load_dataset函数加载数据,支持本地加载和流式加载。
数据预处理建议
- 建议步骤: 移除句子两端的引号,并在句子末尾没有标点时添加句号。
许可证信息
- 许可证: Public Domain, CC-0
引用信息
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }



