fleurs_code_switching_test

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/BrunoHays/fleurs_code_switching_test

下载链接

链接失效反馈

官方服务：

资源简介：

FLEURS 代码切换评估数据集是从 `google/fleurs` 语料库构建的合成代码切换评估集。每个样本是一个长音频序列（默认至少5分钟），通过连接来自多种语言的短话语组成，旨在为测试ASR在频繁语言切换情况下的鲁棒性提供受控基准。数据集包含1000个测试样本，音频采样率为16kHz。主要特征包括音频波形、纯文本转录、带语言和时间标记的转录、持续时间、语言列表和随机种子。数据来源为`google/fleurs`的Parquet文件，使用了8种语言（英语、法语、西班牙语、德语、俄语、意大利语、葡萄牙语、荷兰语），每个样本随机混合2-8种语言，确保每种选定语言至少出现一次。局限性在于代码切换是合成的而非自然对话切换，且跨连接的韵律、说话人连续性和话语级过渡线索未被保留。

创建时间：

2026-04-03

原始信息汇总

FLEURS Code-Switching Evaluation Set 数据集概述

数据集简介

该数据集是一个基于 google/fleurs 语料库构建的合成代码切换评估集。每个样本是一个单一的长音频序列（默认至少5分钟），通过拼接来自多种语言的短语音片段组成。其目标是提供一个受控的基准，用于测试当单个录音中频繁发生语言切换时自动语音识别（ASR）的鲁棒性。

数据集构成

数据来源： 按语言/分割加载的 google/fleurs Parquet 文件（默认分割：test）。
使用语言： 英语（en）、法语（fr）、西班牙语（es）、德语（de）、俄语（ru）、意大利语（it）、葡萄牙语（pt）、荷兰语（nl）。
样本语言组合： 每个样本随机选取2到8种语言。
覆盖约束： 每种被选中的语言在样本中至少出现一次。
构建规则： 随机采样语音片段并进行拼接，直到样本时长至少达到300秒（默认值）。
音频处理： 语音片段被解码为统一的采样率（--target-sr，默认 16kHz），并在需要时转换为单声道。

数据特征

特征列：
- audio: 拼接后的波形和采样率。
- transcription: 语音片段文本的纯文本拼接。
- transcription_tagged: 带有内联语言和时间标记的转录文本，格式为 <lang><start:SS.ss>text<end:SS.ss>。
- duration_sec: 样本的最终时长（秒）。
- languages: 为该样本选择的语言列表。
- seed: 每个样本的随机种子。
数据分割：
- test: 包含1000个样本，总大小约为9.82 GB。
下载大小： 约9.82 GB。
数据集大小： 约9.82 GB。

局限性

代码切换是合成的（拼接式），而非自然的对话式切换。
跨片段拼接时，韵律、说话人连续性以及话语层面的过渡线索未被保留。

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建能够模拟真实语言转换场景的数据集对于评估模型鲁棒性至关重要。FLEURS Code-Switching Evaluation Set 基于 google/fleurs 语料库，通过合成方式构建而成。其构建过程首先从英语、法语、西班牙语等八种语言的测试集中随机选取2至8种语言组合，确保每种语言在样本中至少出现一次。随后，从各语言中随机抽取短语音片段，按顺序拼接直至总时长达到预设的300秒阈值。音频数据经过统一采样率转换与单声道处理，最终形成包含语言标记转录与原始音频的长序列样本。

特点

该数据集的核心特点在于其专为评估自动语音识别系统在代码切换环境下的性能而设计。每个样本均为多语言混合的长音频序列，最小持续时间为5分钟，模拟了高频语言转换的复杂场景。数据集中提供了带有时序与语言标签的转录文本，便于精确分析模型在不同语言片段间的识别能力。尽管语言切换通过拼接合成，而非自然对话产生，但其可控的语言组合与时长约束为研究者提供了标准化的测试基准。

使用方法

在语音识别与多语言处理研究中，该数据集主要用于测试模型对代码切换的鲁棒性。使用者可直接加载测试分割中的音频与转录数据，利用 transcription_tagged 字段中的语言与时间标记进行细粒度性能评估。由于样本已预先分割且包含明确的语言信息，研究人员可针对特定语言对或切换频率设计实验，分析模型在跨语言边界处的错误模式。该数据集适用于端到端ASR系统的基准测试，亦可用于多语言语音表示学习的研究。

背景与挑战

背景概述

在语音识别领域，多语言环境下的语码转换现象对自动语音识别系统的鲁棒性提出了严峻考验。fleurs_code_switching_test数据集由谷歌研究团队于2023年基于FLEURS多语言语音语料库构建，旨在提供一个可控的基准测试平台，专门评估ASR系统在单一录音中频繁发生语言切换时的性能表现。该数据集通过合成方式模拟长音频序列中的语码转换场景，核心研究问题聚焦于提升跨语言语音识别的准确性与适应性，对推动多语言语音处理技术的发展具有重要影响力。

当前挑战

该数据集致力于解决语码转换场景下自动语音识别的领域挑战，即如何准确识别并转录混合多种语言的连续语音流。在构建过程中，面临合成语码转换与自然对话转换之间的差异，例如缺乏真实的韵律特征、说话人连续性以及话语层面的过渡线索。此外，数据集的合成性质可能无法完全反映现实世界中复杂的语言交互模式，这限制了其在模拟自然语码转换场景时的泛化能力。

常用场景

经典使用场景

在多语言语音识别领域，fleurs_code_switching_test数据集被设计为一个专门的评估基准，用于测试自动语音识别系统在频繁语言切换场景下的鲁棒性。该数据集通过将多种语言的短语音片段拼接成长音频序列，模拟了真实世界中可能出现的跨语言交流或代码切换现象，为研究者提供了一个可控且标准化的测试环境，以评估模型在处理混合语言输入时的性能表现。

衍生相关工作

该数据集衍生了多项经典研究工作，包括基于端到端模型的代码切换语音识别方法、跨语言声学建模技术，以及针对合成代码切换数据的评估框架。这些工作不仅扩展了多语言语音处理的学术边界，还促进了开源工具和基准测试的发展，为后续研究提供了重要的参考和比较基础，推动了整个领域向更自然、鲁棒的语言处理系统演进。

数据集最近研究