cahya/fleurs

Name: cahya/fleurs
Creator: cahya
Published: 2022-12-18 11:58:34
License: 暂无描述

Hugging Face2022-12-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cahya/fleurs

下载链接

链接失效反馈

官方服务：

资源简介：

FLEURS数据集是FLoRes机器翻译基准的语音版本，涵盖了102种语言，使用了2009个n-way平行句子。训练集大约有10小时的监督数据，训练集的说话者与开发/测试集的说话者不同。数据集支持语音识别、语言识别和检索任务，并提供了多语言微调的功能。数据集的结构包括数据实例、数据字段和数据分割。此外，数据集还考虑了社会影响、偏见和其他已知限制。

The FLEURS dataset is the speech version of the FLoRes machine translation benchmark, covering 102 languages and utilizing 2009 n-way parallel sentences. The training split contains approximately 10 hours of supervised data, and the speakers in the training set are distinct from those in the development and test sets. This dataset supports tasks including speech recognition, language identification and retrieval, and enables multilingual fine-tuning. The structure of the dataset comprises data instances, data fields and data splits. Additionally, the dataset considers social impacts, biases and other known limitations.

提供机构：

cahya

原始信息汇总

FLEURS 数据集概述

数据集描述

数据集名称: FLEURS
数据集类型: 语音数据集
数据集用途: 用于语音识别、语言识别和检索任务
数据集版本: 最新版本
数据集大小: 约 350 GB

数据集创建者

标注创建者: 专家生成、众包、机器生成
语言创建者: 众包、专家生成

支持的语言

数据集涵盖 102 种语言，包括但不限于：

非洲语言：阿非利卡语、阿姆哈拉语、富拉语等
欧洲语言：英语、法语、德语、西班牙语等
亚洲语言：汉语、日语、韩语、印地语等
其他地区语言：阿拉伯语、希伯来语、土耳其语等

数据集许可

许可类型: CC-BY-4.0

数据集结构

数据实例

以 af_za 配置为例：

下载数据集文件大小: 1.47 GB
生成数据集大小: 1 MB
总磁盘使用量: 1.47 GB

数据字段

id: 音频样本的 ID
num_samples: 浮点值的数量
path: 音频文件的路径
audio: 包含音频数组、采样率和音频路径的音频对象
raw_transcription: 非规范化的音频文件转录
transcription: 音频文件的转录
gender: 性别类 ID
lang_id: 语言类 ID
lang_group_id: 语言组类 ID

数据分割

每个配置包含：

训练集: 约 1000 个样本
验证集: 约 400 个样本
测试集: 约 400 个样本

数据集创建

每个句子收集 1 到 3 个录音（平均 2.3 个），构建新的训练-开发-测试分割，分别包含 1509、150 和 350 个句子。

使用数据集的注意事项

社会影响

该数据集旨在鼓励全球更多语言的语音技术发展，提供平等的技术访问机会，如语音识别或语音翻译。

偏见讨论

尽管数据集涵盖了许多语言，但仍有许多同样重要的语言未被包含。我们相信通过 FLEURS 构建的技术应能泛化到所有语言。

其他已知限制

数据集主要关注朗读语音，因为常见的评估基准如 CoVoST-2 或 LibriSpeech 也评估这种类型的语音。在更嘈杂的环境中，性能可能会有所不同。

附加信息

引用信息

访问 FLEURS 论文：https://arxiv.org/abs/2205.12446 引用格式：

@article{fleurs2022arxiv, title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur}, journal={arXiv preprint arXiv:2205.12446}, url = {https://arxiv.org/abs/2205.12446}, year = {2022}, }

贡献者

感谢 @patrickvonplaten 和 @aconneau 添加此数据集。

搜集汇总

数据集介绍

构建方式

FLEURS数据集的构建采用了102种语言的2009个n-way平行句对，来源于FLoRes机器翻译基准的开发和验证集。训练集大约有10小时的监督数据，且训练集的发言人与开发/测试集的发言人不同。数据集通过多语言微调，并计算所有语言的'unit error rate'平均值来评估。数据集的语言和结果还被分为七个地理区域。

特点

FLEURS数据集的特点在于其跨语言、跨任务、跨领域的语音表示评估，涵盖了10多种语言家族、3个不同领域和4个任务家族：语音识别、翻译、分类和检索。此外，数据集具有多语言性，适用于多种语言的处理和评估。

使用方法

使用FLEURS数据集时，用户可以根据需要下载特定语言的数据，例如使用Afrikaans语言的语音识别任务。数据集支持的数据字段包括音频路径、音频数组、采样率、原始和标准化转录、性别、语言ID和语言组ID。用户可以利用这些字段对模型进行微调，以改善语音识别、语言识别和检索等任务的性能。

背景与挑战

背景概述

FLEURS（发音为“flores”）是一个用于评估跨语言语音表示的基准测试，由Conneau等人于2022年提出。该数据集是FLoRes机器翻译基准的语音版本，涵盖了102种语言，使用了2009年的n向平行句子。FLEURS的目的是为了促进世界更多语言的语音技术的发展，使得所有人都能平等地获得语音识别或语音翻译等技术，从而改善对网络内容的访问。该数据集分为多个地理区域，包括西欧、东欧、中亚/中东/北非、撒哈拉以南非洲、南亚、东南亚以及CJK语言，旨在为不同的语言和文化背景提供代表性。

当前挑战

FLEURS数据集面临的挑战包括：1）所解决的领域问题是语音识别，在多种语言环境中保持高准确性；2）构建过程中遇到的挑战，如数据收集和标注的复杂性，以及确保跨语言和区域的平衡代表性。此外，数据集在保持多样性的同时，还需要解决潜在的偏见问题，并确保技术能够推广到所有语言。

常用场景

经典使用场景

在语音识别领域，FLEURS数据集以其丰富的多语言覆盖和精细的标注而成为研究者的首选。该数据集的经典使用场景在于，研究者可通过其提供的多语言平行句对，进行跨语言语音表示的评估，从而推动自动语音识别技术的发展。

衍生相关工作

基于FLEURS数据集，已经衍生出了一系列相关工作，包括对跨语言语音表示的研究、对不同语言家族的语音识别性能比较，以及针对特定语言或任务进行的微调研究，这些工作进一步推动了语音识别技术的边界扩展。

数据集最近研究