cahya/fleurs|机器翻译数据集|语音识别数据集

hugging_face2022-12-18 更新2024-03-04 收录

机器翻译

语音识别

下载链接：

https://hf-mirror.com/datasets/cahya/fleurs

下载链接

链接失效反馈

资源简介：

FLEURS数据集是FLoRes机器翻译基准的语音版本，涵盖了102种语言，使用了2009个n-way平行句子。训练集大约有10小时的监督数据，训练集的说话者与开发/测试集的说话者不同。数据集支持语音识别、语言识别和检索任务，并提供了多语言微调的功能。数据集的结构包括数据实例、数据字段和数据分割。此外，数据集还考虑了社会影响、偏见和其他已知限制。

提供机构：

cahya

原始信息汇总

FLEURS 数据集概述

数据集描述

数据集名称: FLEURS
数据集类型: 语音数据集
数据集用途: 用于语音识别、语言识别和检索任务
数据集版本: 最新版本
数据集大小: 约 350 GB

数据集创建者

标注创建者: 专家生成、众包、机器生成
语言创建者: 众包、专家生成

支持的语言

数据集涵盖 102 种语言，包括但不限于：

非洲语言：阿非利卡语、阿姆哈拉语、富拉语等
欧洲语言：英语、法语、德语、西班牙语等
亚洲语言：汉语、日语、韩语、印地语等
其他地区语言：阿拉伯语、希伯来语、土耳其语等

数据集许可

许可类型: CC-BY-4.0

数据集结构

数据实例

以 af_za 配置为例：

下载数据集文件大小: 1.47 GB
生成数据集大小: 1 MB
总磁盘使用量: 1.47 GB

数据字段

id: 音频样本的 ID
num_samples: 浮点值的数量
path: 音频文件的路径
audio: 包含音频数组、采样率和音频路径的音频对象
raw_transcription: 非规范化的音频文件转录
transcription: 音频文件的转录
gender: 性别类 ID
lang_id: 语言类 ID
lang_group_id: 语言组类 ID

数据分割

每个配置包含：

训练集: 约 1000 个样本
验证集: 约 400 个样本
测试集: 约 400 个样本

数据集创建

每个句子收集 1 到 3 个录音（平均 2.3 个），构建新的训练-开发-测试分割，分别包含 1509、150 和 350 个句子。

使用数据集的注意事项

社会影响

该数据集旨在鼓励全球更多语言的语音技术发展，提供平等的技术访问机会，如语音识别或语音翻译。

偏见讨论

尽管数据集涵盖了许多语言，但仍有许多同样重要的语言未被包含。我们相信通过 FLEURS 构建的技术应能泛化到所有语言。

其他已知限制

数据集主要关注朗读语音，因为常见的评估基准如 CoVoST-2 或 LibriSpeech 也评估这种类型的语音。在更嘈杂的环境中，性能可能会有所不同。

附加信息

引用信息

访问 FLEURS 论文：https://arxiv.org/abs/2205.12446 引用格式：

@article{fleurs2022arxiv, title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur}, journal={arXiv preprint arXiv:2205.12446}, url = {https://arxiv.org/abs/2205.12446}, year = {2022}, }

贡献者

感谢 @patrickvonplaten 和 @aconneau 添加此数据集。

AI搜集汇总

数据集介绍

构建方式

FLEURS数据集的构建采用了102种语言的2009个n-way平行句对，来源于FLoRes机器翻译基准的开发和验证集。训练集大约有10小时的监督数据，且训练集的发言人与开发/测试集的发言人不同。数据集通过多语言微调，并计算所有语言的'unit error rate'平均值来评估。数据集的语言和结果还被分为七个地理区域。

特点

FLEURS数据集的特点在于其跨语言、跨任务、跨领域的语音表示评估，涵盖了10多种语言家族、3个不同领域和4个任务家族：语音识别、翻译、分类和检索。此外，数据集具有多语言性，适用于多种语言的处理和评估。

使用方法

使用FLEURS数据集时，用户可以根据需要下载特定语言的数据，例如使用Afrikaans语言的语音识别任务。数据集支持的数据字段包括音频路径、音频数组、采样率、原始和标准化转录、性别、语言ID和语言组ID。用户可以利用这些字段对模型进行微调，以改善语音识别、语言识别和检索等任务的性能。

背景与挑战

背景概述

FLEURS（发音为“flores”）是一个用于评估跨语言语音表示的基准测试，由Conneau等人于2022年提出。该数据集是FLoRes机器翻译基准的语音版本，涵盖了102种语言，使用了2009年的n向平行句子。FLEURS的目的是为了促进世界更多语言的语音技术的发展，使得所有人都能平等地获得语音识别或语音翻译等技术，从而改善对网络内容的访问。该数据集分为多个地理区域，包括西欧、东欧、中亚/中东/北非、撒哈拉以南非洲、南亚、东南亚以及CJK语言，旨在为不同的语言和文化背景提供代表性。

当前挑战

FLEURS数据集面临的挑战包括：1）所解决的领域问题是语音识别，在多种语言环境中保持高准确性；2）构建过程中遇到的挑战，如数据收集和标注的复杂性，以及确保跨语言和区域的平衡代表性。此外，数据集在保持多样性的同时，还需要解决潜在的偏见问题，并确保技术能够推广到所有语言。

常用场景

经典使用场景

在语音识别领域，FLEURS数据集以其丰富的多语言覆盖和精细的标注而成为研究者的首选。该数据集的经典使用场景在于，研究者可通过其提供的多语言平行句对，进行跨语言语音表示的评估，从而推动自动语音识别技术的发展。

衍生相关工作

基于FLEURS数据集，已经衍生出了一系列相关工作，包括对跨语言语音表示的研究、对不同语言家族的语音识别性能比较，以及针对特定语言或任务进行的微调研究，这些工作进一步推动了语音识别技术的边界扩展。

数据集最近研究

最新研究方向

近期，针对cahya/fleurs数据集的研究主要集中在探索跨语言语音表示的少样本学习评估。该数据集覆盖了102种语言，跨越多个语言家族和地区，为语音识别、语言识别和检索等任务提供了丰富的多语言资源。前沿研究方向涉及利用多语言微调来提高语音识别的准确性，以及通过固定大小的语音编码器实现高效的语音检索。这些研究对于推动语音技术在更多语言中的发展，实现技术平等接入具有重要意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录