ankur02/bhojpuri

Name: ankur02/bhojpuri
Creator: ankur02
Published: 2024-04-18 11:35:03
License: 暂无描述

Hugging Face2024-04-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ankur02/bhojpuri

下载链接

链接失效反馈

官方服务：

资源简介：

FLEURS是一个多语言语音数据集，涵盖了102种语言，主要用于语音识别、翻译、分类和检索等任务。该数据集基于FLoRes机器翻译基准，包含2009个n-way平行句子，训练集大约有10小时的监督数据。数据集支持流式加载，并提供了如何使用`datasets`库加载和预处理数据的示例代码。FLEURS的目标是促进全球更多语言的语音技术发展，确保每个人都能平等地访问语音识别或语音翻译等技术。

提供机构：

ankur02

原始信息汇总

FLEURS 数据集概述

数据集基本信息

名称: FLEURS
语言: 包含102种语言，如Afrikaans (af), Amharic (amh), Arabic (ara) 等。
许可证: CC-BY-4.0
多语言性: 多语言
大小: 10K<n<100K
任务类别: 自动语音识别
标签: 语音识别

数据集内容

语言和注释创建者

语言创建者: 由众包和专家生成
注释创建者: 包括专家生成、众包和机器生成

数据集结构

数据实例: 每个配置包含约1000个训练样本，400个验证样本和400个测试样本。
数据字段: 包括音频文件路径、音频数组、采样率、原始转录文本、转录文本、性别、语言ID和语言组ID。

支持的任务

自动语音识别 (ASR): 使用音频和转录文本进行模型微调。
语言识别: 通过音频和语言ID进行音频分类模型微调。
检索: 利用音频和文本样本进行跨语言固定大小语音表示的检索模型微调。

数据集使用

加载数据集: 使用datasets库的load_dataset函数加载数据集，支持本地加载和流式加载。
示例脚本: 提供使用transformers库训练ASR和语言识别模型的示例脚本。

数据集创建

数据收集: 每个句子记录一到三次，构建新的训练、开发和测试集，分别包含1509、150和350个句子。

社会影响和考虑

目标: 促进全球更多语言的语音技术发展，提供平等的技术访问。
偏见讨论: 虽然覆盖多种语言，但仍有未覆盖的重要语言。
其他限制: 主要关注读语音，与实际生产环境中的噪声设置可能存在性能差异。

附加信息

引用信息: 引用FLEURS论文时，请使用提供的引用格式。
贡献者: 感谢@patrickvonplaten和@aconneau的贡献。

5,000+

优质数据集

54 个

任务类型

进入经典数据集