five

Seon25/hausa_2_eng_2

收藏
Hugging Face2024-05-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Seon25/hausa_2_eng_2
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice数据集包含独特的MP3文件和相应的文本文件。数据集中的许多录音还包括年龄、性别和口音等人口统计元数据,这些数据可以帮助提高语音识别引擎的准确性。目前,数据集包含120种语言的19673个已验证小时数的录音,但会不断添加更多语音和语言。数据集由众包方式创建,支持多语言,并且提供了如何使用该数据集的示例代码。

Common Voice数据集包含独特的MP3文件和相应的文本文件。数据集中的许多录音还包括年龄、性别和口音等人口统计元数据,这些数据可以帮助提高语音识别引擎的准确性。目前,数据集包含120种语言的19673个已验证小时数的录音,但会不断添加更多语音和语言。数据集由众包方式创建,支持多语言,并且提供了如何使用该数据集的示例代码。
提供机构:
Seon25
原始信息汇总

数据集概述

数据集名称

  • 名称: Common Voice Corpus 16
  • 别名: Hausa to English

数据集摘要

  • 内容: 包含MP3音频文件及其对应的文本文件,总计30328小时录音,包含年龄、性别和口音等人口统计元数据。
  • 语言数量: 目前包含19673小时的验证数据,涵盖120种语言。

支持的语言

  • 语言列表: 包括Abkhaz, Afrikaans, Albanian等120种语言。
  • BCP47代码: 包括zh-CN, zh-HK, zh-TW等多种语言代码。

数据集结构

  • 数据实例: 每个数据点包括音频文件路径和对应的句子,以及其他如口音、年龄、客户端ID等元数据。
  • 数据字段: 包括client_id, path, audio, sentence等字段。
  • 数据分割: 数据被分为dev, train, test, validated, invalidated, reported等部分。

数据集创建

  • 许可证: Apache-2.0
  • 多语言性: 多语言
  • 注释创建者: 众包
  • 语言创建者: 众包

使用指南

  • 加载数据: 使用datasets库的load_dataset函数加载数据,支持本地加载和流式加载。

数据预处理建议

  • 建议步骤: 移除句子两端的引号,并在句子末尾没有标点时添加句号。

许可证信息

  • 许可证: Public Domain, CC-0

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作