ankur02/bhojpuri
收藏Hugging Face2024-04-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ankur02/bhojpuri
下载链接
链接失效反馈官方服务:
资源简介:
FLEURS是一个多语言语音数据集,涵盖了102种语言,主要用于语音识别、翻译、分类和检索等任务。该数据集基于FLoRes机器翻译基准,包含2009个n-way平行句子,训练集大约有10小时的监督数据。数据集支持流式加载,并提供了如何使用`datasets`库加载和预处理数据的示例代码。FLEURS的目标是促进全球更多语言的语音技术发展,确保每个人都能平等地访问语音识别或语音翻译等技术。
FLEURS是一个多语言语音数据集,涵盖了102种语言,主要用于语音识别、翻译、分类和检索等任务。该数据集基于FLoRes机器翻译基准,包含2009个n-way平行句子,训练集大约有10小时的监督数据。数据集支持流式加载,并提供了如何使用`datasets`库加载和预处理数据的示例代码。FLEURS的目标是促进全球更多语言的语音技术发展,确保每个人都能平等地访问语音识别或语音翻译等技术。
提供机构:
ankur02
原始信息汇总
FLEURS 数据集概述
数据集基本信息
- 名称: FLEURS
- 语言: 包含102种语言,如Afrikaans (af), Amharic (amh), Arabic (ara) 等。
- 许可证: CC-BY-4.0
- 多语言性: 多语言
- 大小: 10K<n<100K
- 任务类别: 自动语音识别
- 标签: 语音识别
数据集内容
语言和注释创建者
- 语言创建者: 由众包和专家生成
- 注释创建者: 包括专家生成、众包和机器生成
数据集结构
- 数据实例: 每个配置包含约1000个训练样本,400个验证样本和400个测试样本。
- 数据字段: 包括音频文件路径、音频数组、采样率、原始转录文本、转录文本、性别、语言ID和语言组ID。
支持的任务
- 自动语音识别 (ASR): 使用音频和转录文本进行模型微调。
- 语言识别: 通过音频和语言ID进行音频分类模型微调。
- 检索: 利用音频和文本样本进行跨语言固定大小语音表示的检索模型微调。
数据集使用
- 加载数据集: 使用
datasets库的load_dataset函数加载数据集,支持本地加载和流式加载。 - 示例脚本: 提供使用
transformers库训练ASR和语言识别模型的示例脚本。
数据集创建
- 数据收集: 每个句子记录一到三次,构建新的训练、开发和测试集,分别包含1509、150和350个句子。
社会影响和考虑
- 目标: 促进全球更多语言的语音技术发展,提供平等的技术访问。
- 偏见讨论: 虽然覆盖多种语言,但仍有未覆盖的重要语言。
- 其他限制: 主要关注读语音,与实际生产环境中的噪声设置可能存在性能差异。
附加信息
- 引用信息: 引用FLEURS论文时,请使用提供的引用格式。
- 贡献者: 感谢@patrickvonplaten和@aconneau的贡献。



