five

fleurs_with_flores_101

收藏
Hugging Face2025-12-18 更新2025-12-19 收录
下载链接:
https://huggingface.co/datasets/yotarokubo/fleurs_with_flores_101
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个多语言语音数据集,包含训练集和测试集。每个样本包含音频文件(采样率16000Hz)、转录文本、性别信息、语言ID、语言组ID以及103种语言的翻译文本。数据集支持的语言包括非洲、亚洲、欧洲等多个地区的语言,并按照地理区域将语言分为7个组别(如西欧、东欧、中亚中东北美非洲、撒哈拉以南非洲、南亚、东南亚、中日韩)。数据集的总下载大小约为292GB,总数据集大小约为299GB。训练集包含271,798个样本,测试集包含77,810个样本。

This is a multilingual speech dataset consisting of a training set and a test set. Each sample includes an audio file with a sampling rate of 16000 Hz, transcript text, gender information, language ID, language group ID, and translated texts across 103 languages. The dataset supports languages from multiple regions including Africa, Asia, Europe and other areas, and categorizes the languages into 7 geographical groups, namely Western Europe, Eastern Europe, Central Asia, Middle East, North America and Africa, Sub-Saharan Africa, South Asia, Southeast Asia, and China-Japan-Korea. The total download size of the dataset is approximately 292 GB, while the total size of the full dataset is around 299 GB. The training set contains 271,798 samples, and the test set includes 77,810 samples.
创建时间:
2025-12-12
原始信息汇总

数据集概述

基本信息

  • 数据集名称: fleurs_with_flores_101
  • 存储地址: https://huggingface.co/datasets/yotarokubo/fleurs_with_flores_101
  • 数据格式: 音频与文本
  • 采样率: 16000 Hz

数据规模

  • 总下载大小: 292,356,567,372 字节
  • 总数据集大小: 299,360,905,378 字节
  • 总样本数: 349,608 条

数据划分

  • 训练集 (train):
    • 样本数量: 271,798 条
    • 数据大小: 232,529,937,901 字节
  • 测试集 (test):
    • 样本数量: 77,810 条
    • 数据大小: 66,830,967,477 字节

数据特征

数据集包含以下字段:

标识与元数据

  • id: 整型标识符
  • num_samples: 整型样本数
  • path: 字符串路径
  • audio: 音频数据,采样率为16000 Hz
  • transcription: 字符串转录文本
  • raw_transcription: 字符串原始转录文本

说话者信息

  • gender: 说话者性别分类标签
    • 0: male
    • 1: female
    • 2: other

语言信息

  • lang_id: 语言标识分类标签,涵盖103种语言变体(从 0102,其中 102all
  • language: 字符串语言名称
  • lang_group_id: 语言组分类标签,共7组:
    • 0: western_european_we
    • 1: eastern_european_ee
    • 2: central_asia_middle_north_african_cmn
    • 3: sub_saharan_african_ssa
    • 4: south_asian_sa
    • 5: south_east_asian_sea
    • 6: chinese_japanase_korean_cjk

翻译文本

  • 包含103个翻译字段,字段名格式为 translation_[语言代码],例如 translation_af_zatranslation_en_us 等,均为字符串类型。这些字段覆盖了与 lang_id 对应的所有语言变体。
搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别与机器翻译领域,多语言数据集对于推动跨语言技术发展至关重要。fleurs_with_flores_101数据集通过整合FLEURS语音语料与FLORES-101文本翻译数据构建而成,其构建过程涉及从FLEURS中提取覆盖102种语言的语音片段及转录文本,并与FLORES-101中对应的平行翻译文本进行精确对齐,形成语音-文本-多语言翻译的对应关系。数据集以16kHz采样率保存音频,并标注了说话者性别、语言标识及语言分组信息,确保了数据的多样性与结构性。
特点
该数据集的核心特点在于其广泛的语言覆盖与丰富的标注维度。它囊括了全球102种语言,涵盖西欧、东欧、中亚、撒哈拉以南非洲、南亚、东南亚及中日韩等语言群体,为多语言研究提供了全面资源。每个样本不仅包含原始音频和转录文本,还提供了多达102种语言的翻译版本,实现了语音与文本的多模态对齐。此外,数据集标注了性别和语言分组信息,支持细粒度的语音识别、机器翻译及跨语言分析任务。
使用方法
在应用层面,fleurs_with_flores_101数据集适用于多语言语音识别、语音翻译及跨语言模型训练。研究人员可通过加载数据集的训练集与测试集,直接访问音频、转录文本及多语言翻译字段,用于构建端到端的语音识别系统或开发多语言语音翻译模型。数据集的结构化设计允许用户根据语言标识或语言分组进行数据筛选,以针对特定语言或区域开展实验。其丰富的翻译资源还可用于评估机器翻译系统的性能,推动多语言人工智能技术的进步。
背景与挑战
背景概述
随着全球化进程的加速,多语言语音识别与翻译技术成为人工智能领域的前沿课题。FLEURS with FLORES-101数据集由Meta AI研究团队于2022年推出,旨在解决低资源语言在语音识别与机器翻译任务中数据稀缺的困境。该数据集覆盖全球101种语言,每种语言均包含高质量的语音录音、文本转录及多语言平行翻译,核心研究问题聚焦于构建一个统一、大规模的多模态基准,以推动跨语言语音理解模型的公平评估与性能提升。其广泛的语言覆盖和精细的标注体系,为语音技术在多语言环境下的泛化能力研究提供了关键基础设施,显著促进了语言技术民主化进程。
当前挑战
该数据集致力于解决多语言语音识别与翻译中的核心挑战,即如何克服低资源语言数据匮乏导致的模型性能不均衡问题。构建过程中面临多重困难:首先,收集涵盖101种语言的语音样本需协调全球各地发音人,确保录音质量与口音多样性;其次,为每种语言提供精确的文本转录与平行翻译,依赖大量人工标注与语言学专家参与,成本高昂且易引入标注偏差;此外,语言间的音系与语法差异巨大,统一数据处理流程难以适应所有语言特性,需设计灵活的数据清洗与对齐策略。这些挑战共同构成了数据集构建的复杂性与技术门槛。
常用场景
经典使用场景
在语音识别与自然语言处理的交叉领域,多语言语音数据集fleurs_with_flores_101为研究者提供了宝贵的资源。该数据集覆盖了全球101种语言,每种语言均包含高质量的音频样本及其对应的转录文本,同时标注了说话人性别和语言分组信息。其经典使用场景在于训练和评估多语言自动语音识别模型,特别是在低资源语言环境下,研究者能够利用其丰富的语言多样性来构建鲁棒的语音识别系统,推动语音技术在全球化应用中的普及。
解决学术问题
该数据集有效解决了多语言语音处理中的若干核心学术问题。传统语音识别研究往往受限于单一语言或少数高资源语言,导致模型在语言多样性上的泛化能力不足。fleurs_with_flores_101通过提供大规模、均衡的多语言平行语料,使得研究者能够系统探究跨语言语音表征学习、零样本或少样本语音识别迁移等前沿课题。其意义在于为语言技术民主化奠定了基础,促进了计算语言学在资源匮乏语言上的公平发展,缩小了数字语言鸿沟。
衍生相关工作
围绕fleurs_with_flores_101数据集,学术界已衍生出一系列经典研究工作。这些工作主要集中于探索大规模多语言语音模型的架构设计与优化策略,例如开发能够同时处理百余种语言的端到端语音识别框架。部分研究利用其平行翻译文本,推动了语音到文本的直接翻译任务进展。此外,该数据集也常被用作基准,用于评估像Whisper、XLS-R等前沿预训练模型在多语言场景下的性能,为后续模型改进提供了关键参照。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作