five

Shriyaask/fleurs

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Shriyaask/fleurs
下载链接
链接失效反馈
官方服务:
资源简介:
FLEURS数据集是FLoRes机器翻译基准的语音版本,用于评估跨语言、任务、领域和数据制度的语音表示。它涵盖了来自10多个语系的102种语言,3个不同领域和4个任务家族:语音识别、翻译、分类和检索。数据集使用FLoRes开发和开发测试公开集中的2009个n-way平行句子,每种语言的训练集大约有10小时的监督数据。训练集的说话者与开发/测试集的说话者不同。采用多语言微调,并平均所有语言的“单位错误率”(字符、符号)。语言和结果还分为七个地理区域:西欧、东欧、中亚/中东/北非、撒哈拉以南非洲、南亚、东南亚和CJK语言。

Fleurs is the speech version of the FLoRes machine translation benchmark, designed to evaluate speech representations across languages, tasks, domains, and data regimes. It covers 102 languages from over 10 language families, 3 different domains, and 4 task families: speech recognition, translation, classification, and retrieval. The dataset uses 2009 n-way parallel sentences from the FLoRes dev and devtest publicly available sets, with around 10 hours of supervision per language in the training sets. Speakers of the train sets are different from those in the dev/test sets. Multilingual fine-tuning is used, and the unit error rate (characters, signs) of all languages is averaged. Languages and results are also grouped into seven geographical areas: Western Europe, Eastern Europe, Central-Asia/Middle-East/North-Africa, Sub-Saharan Africa, South-Asia, South-East Asia, and CJK languages.
提供机构:
Shriyaask
搜集汇总
数据集介绍
main_image_url
构建方式
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)数据集诞生于多语言语音表征评估的需求,旨在填补跨语言语音理解基准的空白。该数据集源于机器翻译领域的FLoRes基准,精选了2009条n路平行句子,覆盖102种语言。每条句子在众包与专家协作下,由不同性别和地区的母语者录制1至3次语音,平均约2.3次。基于这些录音,构建了包含1509句训练集、150句验证集与350句测试集的独立划分,确保训练集与验证/测试集的说话人无重叠,以严格评估模型的泛化能力。
特点
FLEURS的独特之处在于其多维度设计。在语言覆盖上,它囊括10余个语系的102种语言,并依据地理区域划分为西欧洲、东欧洲、中亚/中东/北非、撒哈拉以南非洲、南亚、东南亚及中日韩七大语言群,便于分析区域差异。数据规模上,每个语言子集训练集约10小时,验证与测试集各约400条语音,总计约350GB。特点包括:采用字符级单元错误率(Unit Error Rate)作为评估指标,兼顾性别分布的均衡性,并提供多任务支持,可同时用于语音识别、语言辨识、跨语言检索等下游任务。
使用方法
开发者可通过Hugging Face的datasets库便捷地使用FLEURS。加载指定语言的配置(如'af_za'表示南非荷兰语),调用load_dataset即可获取训练、验证及测试集。支持本地下载与流式加载,后者通过streaming=True参数实现数据即时读取,适合大规模场景。语音数据以16kHz的音频数组和对应转录文本为核心,辅以语言ID、性别和语言群组标签。示例脚本涵盖语音识别、音频分类及检索任务,其中语音识别可基于CTC或Seq2Seq模型微调,语言辨识任务通过合并所有语言子集构建分类器,检索任务则利用平行语音与文本对设计对比学习损失,以学习跨语言固定尺寸语音表征。
背景与挑战
背景概述
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)是由Conneau、Ma、Khanuja等研究人员在2022年提出的多语言语音数据集,旨在评估跨语言语音表征的泛化能力。该数据集基于FLoRes机器翻译基准,涵盖102种语言,分为七大地理区域,包括西/东欧、中亚/中东/北非、撒哈拉以南非洲、南/东南亚及中日韩语言。训练集提供约10小时的标注语音,包含2009句n路平行句子,由区别于开发/测试集的说话者录制。FLEURS隶属于XTREME-S基准,支持语音识别、翻译、分类和检索四大任务,其发布显著推动了低资源语言语音技术的发展,为多语言模型公平性评估提供了重要基准。
当前挑战
FLEURS核心挑战在于解决多语言语音识别的领域难题:全球数千种语言中绝大多数缺乏标注数据,现有模型在低资源语言上表现不佳。该数据集通过覆盖102种语言和10余个语系,试图缓解数据稀疏性问题,但构建过程中面临多重挑战:包括在2009句平行句基础上收集每句1-3个录音(平均2.3个)以确保质量;设计训练/验证/测试集(1509/150/350句)时需平衡各语言代表性;克服跨区域录音环境差异及说话者多样性带来的噪声。此外,数据集侧重朗读语音,与实际场景中非正式或嘈杂语音存在性能鸿沟,且仍遗漏大量同等重要的语言,限制了泛化边界。
常用场景
经典使用场景
FLEURS数据集最经典的场景是作为跨语言自动语音识别(ASR)的基准测试平台。它涵盖了来自10余个语系的102种语言,每种语言提供约10小时的标注语音数据,包括训练集(约1509条)、验证集(约150条)和测试集(约350条),并统一采样至16kHz。研究者可基于该数据集进行单语或多语微调,通过字符错误率(CER)等指标评估模型在不同语言和地域组(如西欧、撒哈拉以南非洲等)上的泛化能力。其设计特别强调说话人独立性,训练与测试集说话人不重叠,从而确保评估的公平性与鲁棒性。
实际应用
在实际应用中,FLEURS支撑着三类关键系统的研发:语音识别系统用于智能助手、自动字幕生成和语音搜索,尤其在非洲语言、南亚语言等低资源场景下填补了技术空白;语言识别系统可部署于多语言客服中心或内容分类平台,实现语种自动检测;语音检索系统则服务于跨语言媒体分析(如从多语种播客中检索特定内容)和同声传译的语料对齐。该数据集还被用于优化语音到文本翻译,助力跨国企业的本地化服务和教育领域的多语种学习工具开发。
衍生相关工作
基于FLEURS衍生出一系列具有影响力的工作。例如,Meta AI发布的XTREME-S基准直接利用FLEURS构建了涵盖语音识别、翻译、分类和检索的统一评估框架;在模型层面,WavLM、XLS-R等自监督语音模型在其上进行了多语言微调,显著提升了低资源语言的识别精度;此外,研究者提出了跨语言语音检索的对比学习方法,利用FLEURS的平行句子特性训练固定维度的语音编码器。这些工作不仅深化了对语音通用表征的理解,还催生了面向102种语言的语音预训练模型,为工业级多语言系统奠定了基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作