five

ankur02/bhojpuri

收藏
Hugging Face2024-04-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ankur02/bhojpuri
下载链接
链接失效反馈
官方服务:
资源简介:
FLEURS是一个多语言语音数据集,涵盖了102种语言,主要用于语音识别、翻译、分类和检索等任务。该数据集基于FLoRes机器翻译基准,包含2009个n-way平行句子,训练集大约有10小时的监督数据。数据集支持流式加载,并提供了如何使用`datasets`库加载和预处理数据的示例代码。FLEURS的目标是促进全球更多语言的语音技术发展,确保每个人都能平等地访问语音识别或语音翻译等技术。

FLEURS是一个多语言语音数据集,涵盖了102种语言,主要用于语音识别、翻译、分类和检索等任务。该数据集基于FLoRes机器翻译基准,包含2009个n-way平行句子,训练集大约有10小时的监督数据。数据集支持流式加载,并提供了如何使用`datasets`库加载和预处理数据的示例代码。FLEURS的目标是促进全球更多语言的语音技术发展,确保每个人都能平等地访问语音识别或语音翻译等技术。
提供机构:
ankur02
原始信息汇总

FLEURS 数据集概述

数据集基本信息

  • 名称: FLEURS
  • 语言: 包含102种语言,如Afrikaans (af), Amharic (amh), Arabic (ara) 等。
  • 许可证: CC-BY-4.0
  • 多语言性: 多语言
  • 大小: 10K<n<100K
  • 任务类别: 自动语音识别
  • 标签: 语音识别

数据集内容

语言和注释创建者

  • 语言创建者: 由众包和专家生成
  • 注释创建者: 包括专家生成、众包和机器生成

数据集结构

  • 数据实例: 每个配置包含约1000个训练样本,400个验证样本和400个测试样本。
  • 数据字段: 包括音频文件路径、音频数组、采样率、原始转录文本、转录文本、性别、语言ID和语言组ID。

支持的任务

  • 自动语音识别 (ASR): 使用音频和转录文本进行模型微调。
  • 语言识别: 通过音频和语言ID进行音频分类模型微调。
  • 检索: 利用音频和文本样本进行跨语言固定大小语音表示的检索模型微调。

数据集使用

  • 加载数据集: 使用datasets库的load_dataset函数加载数据集,支持本地加载和流式加载。
  • 示例脚本: 提供使用transformers库训练ASR和语言识别模型的示例脚本。

数据集创建

  • 数据收集: 每个句子记录一到三次,构建新的训练、开发和测试集,分别包含1509、150和350个句子。

社会影响和考虑

  • 目标: 促进全球更多语言的语音技术发展,提供平等的技术访问。
  • 偏见讨论: 虽然覆盖多种语言,但仍有未覆盖的重要语言。
  • 其他限制: 主要关注读语音,与实际生产环境中的噪声设置可能存在性能差异。

附加信息

  • 引用信息: 引用FLEURS论文时,请使用提供的引用格式。
  • 贡献者: 感谢@patrickvonplaten和@aconneau的贡献。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作