ASR_Code_Switch

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch

下载链接

链接失效反馈

官方服务：

资源简介：

ASR语码转换基准是一个精选的基准数据集，专门设计用于评估商业自动语音识别（ASR）系统在处理包含句内语言转换的多语言语音时的性能。该数据集包含总计1,200个语码转换话语，均匀分布在四个语言对中：埃及阿拉伯语-英语、沙特阿拉伯语（Najdi/Hijazi）-英语、波斯语（Farsi）-英语和德语-英语，每个语言对包含300个样本。数据样本通过一个两阶段的严格流程筛选而来，旨在从源语料库中找出最具挑战性的语码转换实例。第一阶段采用启发式过滤器，根据脚本混合比例、词符交替率、形态混合检测、长度和词汇多样性（类符-形符比）五个结构信号对每个转录文本进行评分。第二阶段则利用LLM集成（GPT-4o和Gemini 1.5 Pro）对候选样本在六个语言学维度上进行独立评分，最终保留每个语言对中集成分数最高的300个样本。数据集中的每个样本包含音频文件（MP3格式）、人工标注的参考转录文本、语言对标签、语言BCP-47代码、说话者性别以及一系列详细的难度评分字段（包括综合启发式难度分数、各维度LLM评分、自由文本难度总结和模型间分歧指标）。该数据集适用于多语言ASR基准测试、语码切换研究以及ASR系统鲁棒性评估等任务。

ASR Code-Switching Benchmark is a curated benchmark dataset specifically designed to evaluate the performance of commercial automatic speech recognition (ASR) systems on multilingual speech containing intra-sentential code-switching. The dataset contains a total of 1,200 code-switched utterances, evenly distributed across four language pairs: Egyptian Arabic-English, Saudi Arabic (Najdi/Hijazi)-English, Persian (Farsi)-English, and German-English, with 300 samples per language pair. The data samples are selected through a rigorous two-stage pipeline aimed at identifying the most challenging instances of code-switching from source corpora. The first stage employs heuristic filters that score each transcription based on five structural signals: script mixing ratio, token alternation rate, morphological mixing detection, length, and lexical diversity (type-token ratio). The second stage leverages an ensemble of LLMs (GPT-4o and Gemini 1.5 Pro) to independently score candidate samples across six linguistic dimensions, ultimately retaining the 300 samples with the highest ensemble scores per language pair. Each sample in the dataset includes an audio file (MP3 format), a human-annotated reference transcription, language pair label, language BCP-47 code, speaker gender, and a set of detailed difficulty scoring fields (including composite heuristic difficulty score, per-dimension LLM scores, free-text difficulty summary, and inter-model disagreement metrics). The dataset is suitable for tasks such as multilingual ASR benchmarking, code-switching research, and ASR system robustness evaluation.

创建时间：

2026-05-16

搜集汇总

数据集介绍

构建方式

ASR_Code_Switch基准数据集旨在评估商用自动语音识别系统在多语言语码转换场景下的表现，涵盖阿拉伯语（埃及方言、沙特纳季迪与希贾兹方言）、波斯语（法尔西语）与英语构成的四组语言对，每组包含300条精心筛选的语句，总计1200条。数据集的构建采用双阶段管线：首先通过启发式过滤器依据脚本混合率、词元交替率、形态融合探测、语句长度及词汇多样性这五项结构信号为每条转写文本打分；随后将候选样本交由GPT-4o与Gemini 1.5 Pro组成的大语言模型集成进行独立评估，从六个语言学维度综合评分，最终保留各语言对中难度最高的300条样本。

特点

该数据集的核心特色在于其严苛的样本选择机制与丰富的标注维度。每条样本均包含人类标注的参考转写、说话人性别及BCP-47语言代码，并附带启发式难度分数与LLM集成的综合评分。值得注意的是，数据集中存储了GPT-4o与Gemini 1.5 Pro对每一条样本的六维语言学难度评分（涉及形态融合、切换密度、俚语与语域混合、音系歧义、命名实体与行话密度、文字正字法复杂度），以及两者间各维度的绝对差异与最大分歧值，为分析不同ASR系统在复杂语码转换场景下的脆弱性提供了精细的诊断工具。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据集。示例代码使用`load_dataset`函数，既可指定语言对子集（如`egyptian_arabic_english`）加载特定分片，亦可直接加载全部四个分片用于多语言评估。数据集以`audio`字段提供MP3格式音频文件，配合`transcript`字段的参考转写，可直接输入商用ASR系统进行转录并计算词错误率等指标。此外，研究者还可利用`ensemble_score`等难度评分字段进行分层分析，或根据`disagreement`系列字段筛选出模型判断存在显著分歧的样本，深入探究语码转换中具有挑战性的语言学现象。

背景与挑战

背景概述

在全球化和多语言交流日益频繁的背景下，语码转换——即在同一句话中交替使用两种或多种语言的现象，已成为口语交际中的常态。然而，主流的自动语音识别（ASR）系统多针对单语言场景优化，在处理语码转换语音时表现出显著的性能下降。为填补这一评估空白，ASR_Code_Switch基准数据集应运而生。该数据集由Sajjad Abdoli等研究者于2026年创建，精心采集了1,200条语码转换语音片段，覆盖埃及阿拉伯语-英语、沙特阿拉伯语-英语、波斯语-英语及德语-英语四种语言对，每对300条样本。该工作为评估商用ASR系统在多语言语码转换场景下的鲁棒性提供了标准化测试平台，对推动多语言语音识别技术的发展具有重要影响力。

当前挑战

数据集所解决的领域核心挑战在于语码转换语音识别的复杂性：语码转换涉及语言间的声学、音系、词汇及句法结构的非线性混合，且常伴随口音、方言、俚语及低资源语言（如阿拉伯语方言）的融入，现有ASR系统在此场景下错误率显著升高。在构建过程中，研究团队面临两大挑战：一是从海量语料中自动筛选出具有代表性的困难语码转换实例，他们设计了两阶段流水线——先通过五项启发式信号（如脚本混合比、语码交替率、形态融合检测等）粗筛，再借助GPT-4o和Gemini 1.5 Pro双模型集成进行六维语言学难度评分，以保留最具挑战性的样本；二是确保不同语言对样本的标注质量和难度分布均衡，需人工校对并生成多维文本难度指标，最终形成可复现的评测基准。

常用场景

经典使用场景

在跨语言语音识别领域，ASR_Code_Switch数据集为评估商用自动语音识别（ASR）系统在语码转换场景下的鲁棒性提供了标准化基准。该数据集精心挑选了1,200条包含句内语言切换的语音样本，覆盖埃及阿拉伯语-英语、沙特阿拉伯语-英语、波斯语-英语和德语-英语四种语言对，每对300条语料。研究者可利用其丰富的元数据字段，涵盖脚本混合率、词元交替率、形态融合等结构特征，以及来自多模态大模型的难度评分，深入分析ASR系统面对语码转换时的失效模式与性能边界。

衍生相关工作

围绕ASR_Code_Switch数据集已涌现一系列极具价值的衍生工作。数据集的提出伴随着一项系统性基准研究，对主流商业ASR系统在语码转换语音上的表现进行了全面横向对比，揭示了跨语言融合难度与识别错误率之间的强关联。基于此，后续研究者开始探索利用对抗训练或语码转换数据增强技术提升模型鲁棒性，并将评估范围扩展至方言变体与代码混合语言学特征的自动化分类，形成以语码转换评测为中心的方法论涟漪。

数据集最近研究