MU-Bench

github2026-04-23 更新2026-05-09 收录

下载链接：

https://github.com/sierra-research/mu-bench

下载链接

链接失效反馈

官方服务：

资源简介：

多语言话语转录基准 — 一个开放的基准，用于评估跨多个地区和指标的语音到文本提供者。该数据集包含5个地区的4,270条话语，用于比较转录提供者在真实客户服务电话对话上的表现。

Multilingual Speech Transcription Benchmark — An open benchmark for evaluating speech-to-text service providers across multiple regions and metrics. This dataset comprises 4,270 utterances from 5 regions, designed to compare the performance of transcription providers on real customer service phone conversations.

创建时间：

2026-04-15

原始信息汇总

MU-Bench 数据集详情

数据集概述

MU-Bench（Multilingual Utterances Transcription Benchmark）是一个多语言话语转录基准测试数据集，专门用于评估不同语音转文本服务提供商在多种语言环境下的表现。该数据集基于真实的客户服务电话对话录音（8kHz 单声道）构建，由人工标注员为每段呼叫者话语提供词级别的真实转录文本。

数据集规模与语种分布

数据集共包含 4,270 条话语，覆盖 5 个语言环境：

语言环境	语言	话语数量
en-US	英语（美国）	817
es-MX	西班牙语（墨西哥）	792
tr-TR	土耳其语	846
vi-VN	越南语	975
zh-CN	中文（普通话）	840

数据格式

数据集中的每条话语以 JSON 格式记录在 manifest.json 文件中，包含以下字段：

id：话语唯一标识符
locale：语言环境
conversation_id：对话编号
turn_index：对话轮次索引
transcript：人工标注的真实转录文本
audio_path：音频文件路径
duration_sec：音频时长（秒）

评估指标

指标	描述	优化方向
WER（词错误率）	经过 LLM 归一化后的语料库词错误率，采用各语言环境未加权平均值	越低越好
UER（话语错误率）	包含至少一个关键性错误的话语占比，采用各语言环境未加权平均值	越低越好
Latency（p95）	每段话语转录完成的第 95 百分位延迟时间（毫秒）	越低越好

许可协议

代码部分（脚本、评分、排行榜、工作流及相关软件）：采用 Apache License 2.0
数据部分（Hugging Face 上的音频文件和转录文本及 manifest.json）：采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)

引用方式

bibtex @misc{mubench2026, title = {MU-Bench: A Multilingual Transcription Benchmark from Real Phone Calls}, author = {Li, Andrea and Ray, Soham}, year = {2026}, url = {https://github.com/sierra-research/mu-bench}, note = {Dataset: https://huggingface.co/datasets/sierra-research/mu-bench} }

资源链接

排行榜：https://research.sierra.ai/mubench
数据集下载：https://huggingface.co/datasets/sierra-research/mu-bench
博客/论文：https://research.sierra.ai/mubench/#paper

搜集汇总

数据集介绍

构建方式

MU-Bench是一个面向多语种语音转文本提供商的开源评测基准，专注于评估真实客服电话场景下的转录性能。该数据集收录了来自五个语区的4270条客户话语，涵盖美式英语、墨西哥西班牙语、土耳其语、越南语及中文普通话。所有音频均以8kHz单声道采样录制，由人工标注者逐词生成真实转录文本作为金标准。数据通过Hugging Face平台以受限访问形式发布，用户需申请权限并配置令牌后，方可使用专用脚本下载对应的WAV音频文件。

特点

该基准的显著特色在于其现实导向的多维度评估体系。评测指标涵盖词错误率与话语错误率，其中话语错误率专门检测改变语义的转录错误，并通过大语言模型归一化确保所有提供商在同一参考文本上公平比较。延迟指标中，95百分位响应时间被选为关键计算单位。数据集还采用了语区宏平均策略来汇总全局分数，使得不同语言的评测结果更均衡可信。

使用方法

研究者首先需安装ffmpeg等系统依赖，并通过pip安装包含tools扩展的Python工具包以获取音频下载功能。下载音频后，用户对manifest.json中所有音频运行自有模型，生成纯文本转录文件，并创建包含模型信息的metadata.yaml及记录API响应时间的latency.json。提交前需使用validate.py脚本本地验证格式，随后通过Pull Request将结果加入raw目录，由维护者触发CI自动评分流程。

背景与挑战

背景概述

随着全球化通信需求的激增，多语言语音转录技术在客服、医疗等关键领域的应用日益广泛，但其在真实噪声环境下的表现评估仍缺乏标准化的开放基准。MU-Bench（Multilingual Utterances Transcription Benchmark）由Sierra Research团队于2026年创建，核心研究人员包括Andrea Li和Soham Ray，旨在填补这一空白。该基准聚焦于真实客服电话会话场景，涵盖英语、西班牙语、土耳其语、越南语和中文普通话五种语言区域，总计4270条8kHz单声道音频片段，每条均配有经过人工精标至词汇级的地面真实转录文本。MU-Bench通过统一评测词错误率（WER）、话语错误率（UER）和延迟等指标，为不同语音转录服务提供商提供横向可比的性能对比，其开源平台与排行榜机制已吸引学术界与工业界广泛关注，成为多语言语音识别领域的重要评估工具。

当前挑战

MU-Bench所应对的核心挑战在于多语言客服场景下语音转录的鲁棒性评估，这一领域面临两大困难。其一，真实电话录音受限于8kHz采样率和单声道信道，导致高频信息缺失、背景噪声与通话重叠严重，传统的语音识别模型在此类低质量音频上常出现显著性能衰减，尤其对土耳其语、越南语等资源稀缺语言的适应能力不足。其二，基准构建过程中面临跨语言人工标注标准统一的难题，需确保不同语言区域转录人员在词汇切分、非明确话语（如无声片段或不可辨认词）处理上的一致性能，同时设计合理的LLM规范化流程以避免因拼写变体或缩写引入测量偏差。此外，延迟指标的计算需兼顾流式与批量API的异构响应模式，且跨语言WER的宏观平均方法需谨慎避免因各区域话语长度不均衡导致的统计偏倚，这些技术细节均对基准的公平性与可重复性提出了严苛要求。

常用场景

经典使用场景

在语音识别与自然语言处理交叉领域中，MU-Bench数据集作为一项多语种真实客服电话转录基准，其最经典的使用场景集中于评测不同语音转文本服务在嘈杂、低带宽（8kHz单声道）环境下的鲁棒性与准确性。该基准覆盖英语（美国）、西班牙语（墨西哥）、土耳其语、越南语和中文（普通话）五种语言，共收录4,270条客服对话中的说话人片段，每条录音均配备人工逐词标注的黄金标准转录文本。研究者通常利用该数据集统一评估各语音引擎的语料级词错误率（WER）与话语级错误率（UER），并在标准化流程下对比其在多地域场景中的表现差异，从而揭示模型在处理真实客服数据时所遭遇的语言特异性挑战。

衍生相关工作

MU-Bench数据集自发布以来，已衍生出多个具有学术影响力的研究工作。一方面，基于该基准的多语言WER与UER排行体系催生了一批针对特定低资源语言（如土耳其语、越南语）的声学模型优化方案，研究者通过对比不同归一化策略（如LLM辅助文本正则化 vs. 传统规则）对评分结果的影响，深入剖析了大语言模型在转录后处理环节中的偏差特性。另一方面，该数据集附带的精确p95时延与TTFT（首词到达时间）评测规范，促使语音工程领域出现了专门针对流式与批处理API延迟优化的测算框架。此外，Cite BibTeX格式的引用规范与开源评测流水线亦被后续多语种语音基准如CommonVoice方言子集所借鉴，形成了可复现评测的社区最佳实践。

数据集最近研究