Seon25/hausa_2_eng_2

Name: Seon25/hausa_2_eng_2
Creator: Seon25
Published: 2024-05-27 09:46:30
License: 暂无描述

Hugging Face2024-05-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Seon25/hausa_2_eng_2

下载链接

链接失效反馈

官方服务：

资源简介：

Common Voice数据集包含独特的MP3文件和相应的文本文件。数据集中的许多录音还包括年龄、性别和口音等人口统计元数据，这些数据可以帮助提高语音识别引擎的准确性。目前，数据集包含120种语言的19673个已验证小时数的录音，但会不断添加更多语音和语言。数据集由众包方式创建，支持多语言，并且提供了如何使用该数据集的示例代码。

提供机构：

Seon25

原始信息汇总

数据集概述

数据集名称

名称: Common Voice Corpus 16
别名: Hausa to English

数据集摘要

内容: 包含MP3音频文件及其对应的文本文件，总计30328小时录音，包含年龄、性别和口音等人口统计元数据。
语言数量: 目前包含19673小时的验证数据，涵盖120种语言。

支持的语言

语言列表: 包括Abkhaz, Afrikaans, Albanian等120种语言。
BCP47代码: 包括zh-CN, zh-HK, zh-TW等多种语言代码。

数据集结构

数据实例: 每个数据点包括音频文件路径和对应的句子，以及其他如口音、年龄、客户端ID等元数据。
数据字段: 包括client_id, path, audio, sentence等字段。
数据分割: 数据被分为dev, train, test, validated, invalidated, reported等部分。

数据集创建

许可证: Apache-2.0
多语言性: 多语言
注释创建者: 众包
语言创建者: 众包

使用指南

加载数据: 使用datasets库的load_dataset函数加载数据，支持本地加载和流式加载。

数据预处理建议

建议步骤: 移除句子两端的引号，并在句子末尾没有标点时添加句号。

许可证信息

许可证: Public Domain, CC-0

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

5,000+

优质数据集

54 个

任务类型

进入经典数据集