five

google/xtreme_s

收藏
Hugging Face2024-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/google/xtreme_s
下载链接
链接失效反馈
官方服务:
资源简介:
XTREME-S基准是一个旨在评估跨语言、任务、领域和数据制度的语音表示的基准。它涵盖了来自10多个语系的102种语言,涉及3个不同领域和4个任务家族:语音识别、翻译、分类和检索。XTREME-S是第一个既多样化又完全可访问且可复现的语音基准。所有数据集都可以通过一行代码下载,并提供了一个易于使用且灵活的微调脚本。
提供机构:
google
原始信息汇总

XTREME-S 数据集概述

数据集基本信息

  • 名称: XTREME-S
  • 描述: XTREME-S 是一个跨语言语音表示评估的多语言编码器基准,旨在评估不同语言、任务、领域和数据体制下的语音表示。该基准覆盖了来自10多个语系的102种语言,涉及3个不同的领域和4个任务家族:语音识别、翻译、分类和检索。
  • 语言: 包含多种语言,如非洲语、阿姆哈拉语、阿拉伯语等102种语言。
  • 许可: CC-BY-4.0
  • 多语言性: 多语言
  • 大小: 10K<n<100K
  • 源数据集: 包括multilingual_librispeech、covost2等。
  • 任务类别: 自动语音识别、语音处理
  • 任务ID: 语音识别

数据集结构

  • 数据集组成: 包括FLEURS、Multilingual Librispeech (MLS)、Voxpopuli、Minds14、Covost2和BABEL等子数据集。
  • 数据集用途: 用于评估语音识别、翻译、分类和检索等任务。

数据集创建

  • 数据集来源: 数据集由多个子数据集组成,每个子数据集都有其特定的创建过程和来源。
  • 数据集创建目的: 旨在推动全球范围内更多语言的语音技术发展,提供平等的技术访问,如语音识别或语音翻译。

使用数据集的考虑

  • 社会影响: 该数据集旨在促进全球范围内更多语言的语音技术发展,提供平等的技术访问。
  • 偏见讨论: 虽然覆盖了多种语言,但仍有一些重要语言未被包括。
  • 其他已知限制: 该基准主要关注阅读语音,可能与更嘈杂环境下的实际性能存在差异。

附加信息

  • 许可证: 所有数据集均根据Creative Commons许可证(CC-BY)授权。
  • 引用信息: 提供了XTREME-S及其子数据集的引用信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作