google/fleurs
收藏Hugging Face2024-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/google/fleurs
下载链接
链接失效反馈资源简介:
FLEURS是FLoRes机器翻译基准的语音版本,包含102种语言的2009个并行句子,用于评估跨语言、任务、领域和数据制度的语音表示。训练集包含约10小时的监督数据,训练集和开发/测试集的说话者不同。数据集支持自动语音识别、语言识别和检索等任务,并且提供了详细的配置和使用示例。
FLEURS is the speech variant of the FLoRES machine translation benchmark. It comprises 2009 parallel sentences across 102 languages, designed to evaluate speech representations across cross-lingual, cross-task, cross-domain and diverse data regimes. The training set contains approximately 10 hours of supervised data, with disjoint speaker sets between the training partition and the development/test partitions. This dataset supports tasks such as automatic speech recognition (ASR), language identification and speech retrieval, and provides detailed configuration instructions and usage examples.
提供机构:
google
原始信息汇总
数据集概述
数据集名称
- 名称: FLEURS
- 全称: The Cross-lingual TRansfer Evaluation of Multilingual Encoders for Speech (XTREME-S) benchmark
数据集描述
- 目的: 评估跨语言、任务、领域和数据体制的语音表示
- 覆盖范围: 102种语言,涵盖10+语言家族,3个不同领域和4个任务家族:语音识别、翻译、分类和检索
数据集特性
- 语言: 包括afr, amh, ara等102种语言
- 许可证: cc-by-4.0
- 多语言性: 多语言
- 大小: 10K<n<100K
- 任务类别: 自动语音识别
- 标签: 语音识别
数据集结构
- 数据实例: 每个配置包含约1000个训练样本,400个验证和测试样本
- 数据字段: id, num_samples, path, audio, raw_transcription, transcription, gender, lang_id, lang_group_id
数据集使用
- 加载方式: 使用
datasets库的load_dataset函数 - 示例代码: 提供Python代码示例,用于加载和处理数据集
数据集创建
- 录音数量: 每个句子1至3次录音(平均2.3次)
- 分割: 训练集1509句,开发集150句,测试集350句
数据集考虑
- 社会影响: 促进全球更多语言的语音技术发展
- 偏见讨论: 覆盖多种语言,但仍有遗漏
- 其他限制: 主要关注朗读语音,可能与实际生产环境中的噪音情况不符
附加信息
- 许可证: 所有数据集均遵循Creative Commons license (CC-BY)
- 引用信息: 引用时请参考FLEURS论文,arXiv:2205.12446
AI搜集汇总
数据集介绍

构建方式
FLEURS数据集的构建采用多语言并行句子的方式,从FLoRes机器翻译基准中选取了2009种语言的平行句子作为训练数据。每种语言的训练集大约有10小时的语音监督,且训练集的说话者与开发集和测试集的说话者不同。构建过程中,采用了多语言微调,并计算了所有语言的单元错误率,将语言和结果分为七个地理区域。
特点
FLEURS数据集具有多语言特性,包含102种语言,跨越10多个语言家族,涵盖不同的领域和任务类型。数据集注重平衡性别发言分布,并且旨在通过提供多种语言的语音识别技术,促进全球语言的平等技术发展。
使用方法
用户可以通过HuggingFace的datasets库加载和使用FLEURS数据集。支持多种任务,如语音识别、语言识别和检索。数据集可以使用streaming模式进行实时加载,也可以下载到本地。此外,提供了与PyTorch的集成,方便用户直接创建数据加载器。
背景与挑战
背景概述
FLEURS数据集,全称为Few-shot Learning Evaluation of Universal Representations of Speech,是一个专为评估跨语言语音表示的基准而设计的多语言语音数据集。该数据集由Google团队创建于2022年,包含了102种语言的语音数据,跨越了10多个语系,涵盖了西方、东方、中亚、北非、撒哈拉以南非洲、南亚、东南亚以及CJK(中文、日语、韩语)语言区域。FLEURS的构建旨在推动语音识别、翻译、分类和检索等任务在多语言环境下的研究,为不同语言提供平等的科技接入机会。
当前挑战
FLEURS数据集在构建过程中面临的主要挑战包括:1)多语言数据的收集与标注,需要专家、众包以及机器生成注释的结合,以确保数据的多样性和准确性;2)数据集的规模与多样性带来的处理和存储挑战;3)跨语言语音识别中的语言识别和固定大小语音表示的检索问题;4)数据集在语音类型上的局限性,主要集中于读语音,而实际应用中可能存在的噪声环境对模型性能的影响。
常用场景
经典使用场景
FLEURS数据集的经典使用场景在于评估跨语言的语音表示在各种语言、任务、领域和数据体制下的性能。该数据集覆盖了102种语言,被广泛应用于语音识别、翻译、分类和检索等任务,例如,通过多语言微调来训练自动语音识别模型,或用于语言识别模型以识别不同语言的语音片段。
实际应用
在实际应用中,FLEURS数据集可用于提升语音识别系统的多语言支持能力,使得技术能够覆盖更多语言,促进语音技术在全球化背景下的普及,并为不同语言的用户提供平等的科技接入机会。
衍生相关工作
基于FLEURS数据集,研究者们已经开展了一系列相关工作,包括构建多语言语音识别模型、语言识别系统以及探索固定大小的语音表示在检索任务中的应用,推动了语音处理领域的研究进展和技术创新。
以上内容由AI搜集并总结生成



