ankur02/fleurs

Name: ankur02/fleurs
Creator: ankur02
Published: 2024-04-21 10:55:42
License: 暂无描述

Hugging Face2024-04-21 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ankur02/fleurs

下载链接

链接失效反馈

官方服务：

资源简介：

FLEURS是FLoRes机器翻译基准的语音版本，包含102种语言的2009个并行句子。该数据集用于评估跨语言、任务、领域和数据制度的语音表示，涵盖了语音识别、翻译、分类和检索四个任务家族。训练集大约有10小时的监督数据，训练集的说话者与开发/测试集的说话者不同。数据集支持多语言微调，并提供了详细的地区分类。FLEURS数据集旨在鼓励全球更多语言的语音技术发展，目标是让每个人都能平等地获得语音识别或语音翻译等技术。

提供机构：

ankur02

原始信息汇总

FLEURS 数据集概述

数据集描述

数据集名称: FLEURS
数据集类型: 语音数据集
数据集用途: 用于自动语音识别、语言识别和检索任务
数据集版本: 包含102种语言，覆盖10+语言家族，3个不同领域和4个任务家族
数据集大小: 约350 GB
数据集许可: CC-BY-4.0

数据集结构

数据实例

示例语言: 南非荷兰语 (af_za)
数据实例大小: 下载文件大小1.47 GB，生成数据大小1 MB，总磁盘使用1.47 GB
数据实例示例: json { "id": 91, "num_samples": 385920, "path": "/path/to/audio/file.wav", "audio": { "path": "/path/to/audio/file.wav", "array": [...], "sampling_rate": 16000 }, "raw_transcription": "Dit is nog nie huidiglik bekend watter aantygings gemaak sal word of wat owerhede na die seun gelei het nie maar jeugmisdaad-verrigtinge het in die federale hof begin", "transcription": "dit is nog nie huidiglik bekend watter aantygings gemaak sal word of wat owerhede na die seun gelei het nie maar jeugmisdaad-verrigtinge het in die federale hof begin", "gender": 0, "lang_id": 0, "language": "Afrikaans", "lang_group_id": 3 }

数据字段

id: 音频样本ID
num_samples: 浮点值数量
path: 音频文件路径
audio: 包含音频数组、采样率和音频路径的音频对象
raw_transcription: 非规范化的音频文件转录
transcription: 音频文件转录
gender: 性别类别ID
lang_id: 语言类别ID
lang_group_id: 语言组类别ID

数据分割

训练集: 约1000个样本
验证集: 约400个样本
测试集: 约400个样本

数据集创建

数据收集: 每个句子收集1到3个录音，平均2.3个录音
数据分割: 训练集1509个句子，验证集150个句子，测试集350个句子

使用数据集的注意事项

社会影响

目标: 促进全球更多语言的语音技术发展，提供平等的技术访问

偏见讨论

语言覆盖: 虽然覆盖多种语言，但仍有许多重要语言未被包含
语音类型: 主要关注朗读语音，与实际生产中的噪声环境存在差异

其他已知限制

语音类型: 主要关注朗读语音，与实际生产中的噪声环境存在差异

附加信息

引用信息

论文: FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech
引用格式: bibtex @article{fleurs2022arxiv, title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur}, journal = {arXiv preprint arXiv:2205.12446}, url = {https://arxiv.org/abs/2205.12446}, year = {2022}, }

贡献者

贡献者: @patrickvonplaten, @aconneau

5,000+

优质数据集

54 个

任务类型

进入经典数据集