five

fleurs-en-test

收藏
Hugging Face2026-05-22 更新2026-05-23 收录
下载链接:
https://huggingface.co/datasets/Trelis/fleurs-en-test
下载链接
链接失效反馈
官方服务:
资源简介:
FLEURS英语测试集(Trelis)是一个用于自动语音识别(ASR)基准测试的私有评估数据集。该数据集源自Google的FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)数据集,具体采用其英语(en_us)配置的测试分割。FLEURS是一个标准的跨语言ASR基准,涵盖102种语言,旨在评估通用语音表示的少样本学习性能。本数据集包含647个语音话语样本,数据构建过程中未进行任何过滤或子采样,完全保留了原始FLEURS en_us测试分割的内容。每个样本包含以下字段:audio(语音录音,以原始字节形式存储以避免编解码器依赖)、transcription(参考文本,由上游字段重命名而来)、id(原始FLEURS话语的唯一标识符)、gender(说话者性别)、duration(语音持续时间,以秒为单位,通过样本数除以16000计算得出)。数据集适用于英语自动语音识别任务的性能评估与基准测试,采用CC-BY-4.0许可证。

The FLEURS English Test Set (Trelis) is a private evaluation dataset for automatic speech recognition (ASR) benchmarking. It is derived from Googles FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) dataset, specifically using the test split of its English (en_us) configuration. FLEURS is a standard cross-lingual ASR benchmark covering 102 languages, designed to evaluate few-shot learning performance of universal speech representations. This dataset contains 647 speech utterance samples, with no filtering or subsampling applied during data construction, fully preserving the content of the original FLEURS en_us test split. Each sample includes the following fields: audio (speech recordings stored as raw bytes to avoid codec dependencies), transcription (reference text, renamed from upstream fields), id (unique identifier for the original FLEURS utterance), gender (speaker gender), duration (speech duration in seconds, calculated by dividing the number of samples by 16000). The dataset is suitable for performance evaluation and benchmarking of English automatic speech recognition tasks, and is licensed under CC-BY-4.0.
提供机构:
Trelis
创建时间:
2026-05-20
原始信息汇总

FLEURS English Test Set (Trelis)

数据集概述

该数据集是**FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)**英语测试集的私有评估集,专门用于自动语音识别(ASR)的基准测试。

  • 样本数量: 647 条语音片段
  • 许可证: CC-BY-4.0(继承自上游 FLEURS)
  • 语言: 英语
  • 任务类别: 自动语音识别(ASR)

数据来源

  • 派生自 google/fleursen_us 配置和 test 划分。
  • 未经过滤或子采样,直接完整取用原始测试集。

构建方法

  • 使用 load_dataset("google/fleurs", "en_us", split="test") 加载。
  • transcription 列是从上游重命名的参考文本。
  • duration 通过 num_samples / 16000 计算得出。
  • 音频以原始字节存储(Audio(decode=False)),避免编解码器依赖。

数据字段

列名 类型 描述
audio 音频字节 语音录音
transcription 字符串 参考文本
id 整数 原始 FLEURS 话语 ID
gender 字符串 说话者性别
duration 浮点数 音频时长(秒)

参考文献

Conneau et al., 2022. FLEURS: Few-Shot Learning Evaluation of Universal Representations of Speech. arXiv:2205.12446.

构建脚本

merge-bench-baselines/scripts/build_fleurs.py en

搜集汇总
数据集介绍
main_image_url
构建方式
FLEURS English Test Set源自Google发布的FLEURS数据集,专注于英语(美国)语音识别评估。该测试集完整提取自原始数据集的测试划分,未施加任何过滤或子采样操作,确保了数据的原始性与代表性。构建过程中,通过HuggingFace的`load_dataset`接口直接获取`en_us`配置下的测试拆分,并将原始转录字段重命名为`transcription`。音频时长依据采样率(16000 Hz)与样本点数计算得出,同时以原始字节形式存储音频,避免编解码依赖。数据集共包含647条语音样本,字段涵盖音频、转录文本、唯一标识符、说话人性别及时长信息,为自动语音识别基准测试提供了标准化的私有评估集。
特点
该数据集的显著特点在于其作为FLEURS跨语言语音基准的英语子集,专为少样本学习评估而设计。其测试集原始且未经修改,忠实保留了上游数据集的所有属性,包括多样化的说话人性别分布与完整的音频时长信息。采用原始音频字节存储方式,既保证了数据加载的灵活性,又规避了编解码器兼容性问题。每一条样本均包含精准的参考转录文本,便于计算词错误率等ASR核心指标。此外,数据集延续了CC-BY-4.0许可协议,具有良好的开放性与可复用性,为语音识别社区的公平比较提供了可靠基石。
使用方法
研究者可通过HuggingFace Datasets库便捷加载该数据集,推荐使用`load_dataset('trelis/fleurs-en-test', split='test')`命令。由于音频以原始字节存储,需在加载时指定`audio`列的编解码方式,或通过`Audio(decode=True)`参数实时解码。该数据集直接兼容现有的ASR评估流程,用户可将其作为测试集计算模型预测与参考文本之间的词错误率(WER)。建议结合HuggingFace的`dataset.map`函数对音频进行预处理,例如重采样至统一采样率,以确保评估结果的标准化。数据集的647条样本规模适中,适合快速迭代验证ASR系统性能。
背景与挑战
背景概述
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)数据集由Google研究团队于2022年提出,旨在为多语言自动语音识别(ASR)提供标准化的跨语言评估基准。该数据集覆盖102种语言,其设计初衷在于推动少样本学习场景下语音表示通用性的研究。fleurs-en-test作为FLEURS英语子集的测试部分,包含647条精心标注的语音样本,每条样本均记录说话人性别、音频时长及参考文本转录。作为公开可及的评估集,它被广泛用于衡量ASR系统在英语上的鲁棒性与准确性,对语音识别社区具有重要的基准参照价值。
当前挑战
该数据集所解决的领域问题在于构建一个覆盖广泛语言且支持公平对比的跨语言ASR评估框架,尤其针对少样本学习场景下语音表示的泛化能力评估。在构建过程中,挑战集中于确保多语言数据的统一采集与标注标准,包括语音质量的一致性控制、不同语言转录文本的精确对齐,以及音频时长与采样率的标准化处理。此外,fleurs-en-test作为测试集被完整保留,避免任何过滤或子采样,这进一步要求上游数据已经充分解决了语言不平衡和噪声干扰等预处理难题。
常用场景
经典使用场景
FLEURS英文测试集作为跨语言语音识别领域的标杆性评估资源,其经典使用场景聚焦于自动语音识别系统的性能评测。研究人员常依托此包含647条英语话语的私有测试集,对ASR模型进行零样本或少样本学习场景下的基准测试,衡量模型在真实语音数据上的转录精度与鲁棒性。该数据集源自Google发布的FLEURS多语种语音库,覆盖102种语言,其英文子集凭借标准化的音频格式与精准的文本标注,成为检验语音识别算法泛化能力的基石。
衍生相关工作
基于FLEURS数据集,学术界衍生出一系列经典工作,包括多任务学习框架、跨语言预训练模型及语音与文本联合表示方法。例如,Conneau等人提出的XLS-R模型以及Whisper等大规模语音模型均将FLEURS作为关键评估基准。这些工作进一步探索了语音表征在不同语言间的共享知识挖掘,推动了端到端语音识别技术的范式革新,并催生出面向低资源语言的少样本学习策略,丰富了语音人工智能的理论与实践体系。
数据集最近研究
最新研究方向
聚焦于英语语音识别模型在标准跨语言基准上的零样本泛化能力验证。该测试集源自Google发布的FLEURS语料库,作为涵盖102种语言的Few-shot学习评估基准,其英文子集被独立抽取用于细粒度诊断,当前前沿方向包括:利用该私有评估集对比预训练语音模型(如Whisper、HuBERT)在真实场景下的词错误率;探索多任务学习机制对低资源语言迁移效果的边际贡献;以及结合说话人属性(如性别、语速)分析识别偏差,推动公平性研究。热点事件如2023年Meta发布SeamlessM4T多模态模型时,即采用FLEURS架构验证跨语言理解上限。该数据集的标准化构建流程(规避编解码依赖、保留原始时长字段)为复现性研究提供了基础,其公开的647条精选样本已成为英语ASR系统鲁棒性评估的典型比例尺,对推动语音技术从实验室走向嘈杂环境部署具有关键意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作