google/fleurs

Hugging Face2024-08-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/google/fleurs

下载链接

链接失效反馈

资源简介：

FLEURS是FLoRes机器翻译基准的语音版本，包含102种语言的2009个并行句子，用于评估跨语言、任务、领域和数据制度的语音表示。训练集包含约10小时的监督数据，训练集和开发/测试集的说话者不同。数据集支持自动语音识别、语言识别和检索等任务，并且提供了详细的配置和使用示例。

FLEURS is the speech variant of the FLoRES machine translation benchmark. It comprises 2009 parallel sentences across 102 languages, designed to evaluate speech representations across cross-lingual, cross-task, cross-domain and diverse data regimes. The training set contains approximately 10 hours of supervised data, with disjoint speaker sets between the training partition and the development/test partitions. This dataset supports tasks such as automatic speech recognition (ASR), language identification and speech retrieval, and provides detailed configuration instructions and usage examples.

提供机构：

google

原始信息汇总

数据集概述

数据集名称

名称: FLEURS
全称: The Cross-lingual TRansfer Evaluation of Multilingual Encoders for Speech (XTREME-S) benchmark

数据集描述

目的: 评估跨语言、任务、领域和数据体制的语音表示
覆盖范围: 102种语言，涵盖10+语言家族，3个不同领域和4个任务家族：语音识别、翻译、分类和检索

数据集特性

语言: 包括afr, amh, ara等102种语言
许可证: cc-by-4.0
多语言性: 多语言
大小: 10K<n<100K
任务类别: 自动语音识别
标签: 语音识别

数据集结构

数据实例: 每个配置包含约1000个训练样本，400个验证和测试样本
数据字段: id, num_samples, path, audio, raw_transcription, transcription, gender, lang_id, lang_group_id

数据集使用

加载方式: 使用datasets库的load_dataset函数
示例代码: 提供Python代码示例，用于加载和处理数据集

数据集创建

录音数量: 每个句子1至3次录音（平均2.3次）
分割: 训练集1509句，开发集150句，测试集350句

数据集考虑

社会影响: 促进全球更多语言的语音技术发展
偏见讨论: 覆盖多种语言，但仍有遗漏
其他限制: 主要关注朗读语音，可能与实际生产环境中的噪音情况不符

附加信息

许可证: 所有数据集均遵循Creative Commons license (CC-BY)
引用信息: 引用时请参考FLEURS论文，arXiv:2205.12446

AI搜集汇总

数据集介绍

构建方式

FLEURS数据集的构建采用多语言并行句子的方式，从FLoRes机器翻译基准中选取了2009种语言的平行句子作为训练数据。每种语言的训练集大约有10小时的语音监督，且训练集的说话者与开发集和测试集的说话者不同。构建过程中，采用了多语言微调，并计算了所有语言的单元错误率，将语言和结果分为七个地理区域。

特点

FLEURS数据集具有多语言特性，包含102种语言，跨越10多个语言家族，涵盖不同的领域和任务类型。数据集注重平衡性别发言分布，并且旨在通过提供多种语言的语音识别技术，促进全球语言的平等技术发展。

使用方法

用户可以通过HuggingFace的datasets库加载和使用FLEURS数据集。支持多种任务，如语音识别、语言识别和检索。数据集可以使用streaming模式进行实时加载，也可以下载到本地。此外，提供了与PyTorch的集成，方便用户直接创建数据加载器。

背景与挑战

背景概述

FLEURS数据集，全称为Few-shot Learning Evaluation of Universal Representations of Speech，是一个专为评估跨语言语音表示的基准而设计的多语言语音数据集。该数据集由Google团队创建于2022年，包含了102种语言的语音数据，跨越了10多个语系，涵盖了西方、东方、中亚、北非、撒哈拉以南非洲、南亚、东南亚以及CJK（中文、日语、韩语）语言区域。FLEURS的构建旨在推动语音识别、翻译、分类和检索等任务在多语言环境下的研究，为不同语言提供平等的科技接入机会。

当前挑战

FLEURS数据集在构建过程中面临的主要挑战包括：1)多语言数据的收集与标注，需要专家、众包以及机器生成注释的结合，以确保数据的多样性和准确性；2)数据集的规模与多样性带来的处理和存储挑战；3)跨语言语音识别中的语言识别和固定大小语音表示的检索问题；4)数据集在语音类型上的局限性，主要集中于读语音，而实际应用中可能存在的噪声环境对模型性能的影响。

常用场景

经典使用场景

FLEURS数据集的经典使用场景在于评估跨语言的语音表示在各种语言、任务、领域和数据体制下的性能。该数据集覆盖了102种语言，被广泛应用于语音识别、翻译、分类和检索等任务，例如，通过多语言微调来训练自动语音识别模型，或用于语言识别模型以识别不同语言的语音片段。

实际应用

在实际应用中，FLEURS数据集可用于提升语音识别系统的多语言支持能力，使得技术能够覆盖更多语言，促进语音技术在全球化背景下的普及，并为不同语言的用户提供平等的科技接入机会。

衍生相关工作

基于FLEURS数据集，研究者们已经开展了一系列相关工作，包括构建多语言语音识别模型、语言识别系统以及探索固定大小的语音表示在检索任务中的应用，推动了语音处理领域的研究进展和技术创新。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集