themechanism/script-fidelity-benchmark

Name: themechanism/script-fidelity-benchmark
Creator: themechanism
Published: 2026-05-01 14:29:24
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/themechanism/script-fidelity-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Script fidelity benchmark数据集是一个用于衡量多语言自动语音识别(ASR)中脚本保真率(SFR)的基准数据集。SFR用于评估ASR输出字符是否属于目标脚本，而不仅仅是单词编辑率(WER)。数据集包含10种语言（如Pashto、Urdu、Arabic、Persian、Hindi、Bengali、Malayalam、Tamil、Somali和Georgian）的FLEURS测试集，并评估了多种ASR模型（如Whisper、MMS-1B、SeamlessM4T-v2和Gemma 4）。数据集提供了详细的评估方法、脚本布局、运行设置和结果字段说明，旨在帮助研究者理解和改进多语言ASR中的脚本保真问题。

The Script fidelity benchmark dataset is a benchmark for measuring Script Fidelity Rate (SFR) in multilingual automatic speech recognition (ASR). SFR evaluates whether the characters in ASR outputs belong to the target script, going beyond word error rate (WER). The dataset includes FLEURS test splits for 10 languages (e.g., Pashto, Urdu, Arabic, Persian, Hindi, Bengali, Malayalam, Tamil, Somali, and Georgian) and evaluates multiple ASR models (e.g., Whisper, MMS-1B, SeamlessM4T-v2, and Gemma 4). It provides detailed evaluation methods, repository layout, setup instructions, and result field descriptions, aiming to help researchers understand and improve script fidelity in multilingual ASR.

提供机构：

themechanism

搜集汇总

数据集介绍

构建方式

Script-fidelity-benchmark 数据集旨在评估多语言自动语音识别（ASR）系统中的脚本保真度，即ASR假设文本是否遵循目标语言的正确书写体系。该基准基于FLEURS测试集构建，涵盖十种语言（如普什图语、印地语、孟加拉语等）和七种脚本体系。评估了包括Whisper系列、MMS-1B、SeamlessM4T-v2以及Gemma 4在内的多种ASR模型与其语言对组合，共计100个模型-语言对。每个模型对FLEURS测试集进行推理，输出转录文本，随后计算单词错误率、字符错误率以及脚本保真率等指标。数据集还包含了Gemma 4的脚本感知提示实验、下游机器翻译验证以及脚本保真率与语言识别混合审计的结果。所有评估结果以CSV文件形式存储，并为每个配置提供了对应的数据子集。

特点

该数据集的核心创新在于引入了脚本保真率这一参考无关指标，用于量化ASR输出文本中属于目标脚本字符的比例，弥补了传统词错误率仅关注词级别编辑距离而忽略书写体系一致性的不足。数据集不仅提供了主流Whisper和Gemma 4模型的基准结果，还设计了脚本感知提示的消融实验，揭示提示工程对缓解脚本崩溃现象的效果。此外，通过下游机器翻译验证和脚本保真率与语言识别混合审计，从文本链路的整体性角度评估脚本错误对后续自然语言处理任务的传播影响。数据集的100对评估矩阵覆盖了多种模型族和语言对，支持跨语言、跨模型的系统化对比分析。

使用方法

用户可通过Hugging Face平台直接加载该数据集的不同配置子集，例如使用`load_dataset("script-fidelity-benchmark", "main_results")`获取主要评估结果。对于需要复现实验的研究者，数据集提供了完整的评估脚本和依赖环境配置（基于Python和uv工具），支持运行Whisper、MMS、SeamlessM4T和Gemma 4模型的ASR推理。此外，脚本保真率指标已封装为独立的`script-fidelity` Python包，可通过`pip install script-fidelity`安装并在自定义ASR输出上使用，也支持通过Hugging Face Evaluate库加载为社区指标。数据集还包含Gemma 4的脚本提示缓解实验和下游机器翻译验证的复现脚本，方便用户深入探索脚本保真度问题。

背景与挑战

背景概述

脚本复现基准（Script Fidelity Benchmark）诞生于2026年，由匿名研究团队在NeurIPS E&D研讨会上提出。该数据集聚焦于多语言自动语音识别（ASR）中一个被长期忽视的核心问题——语种与书写系统的错配导致输出文本在语言正确但脚本错误的“脚本崩溃”现象。研究基于FLEURS数据集，涵盖普什图语、印地语、孟加拉语等十种使用不同书写系统的语言，系统评估了Whisper、MMS-1B、SeamlessM4T-v2及Gemma 4等主流ASR模型的脚本保真度。该工作首次引入脚本保真率指标，填补了传统词错误率无法检测书写系统错误的评估空白，为多语言ASR系统的鲁棒性评价提供了全新视角。

当前挑战

该数据集所解决的核心挑战在于：现有ASR评估体系仅关注音转字的转录准确度，却无法捕捉模型将阿拉伯语内容以拉丁转写形式输出的系统性脚本错误，这一问题在书写系统多元化语言中尤为突出。构建过程中，研究者面临多重困难：首先，需确保评估所涵盖的十种语言在FLEURS中具有足够且均衡的测试样本；其次，需要为每种语言定义严格的书写系统边界，以排除多脚本共享语言中合法变体的干扰；最后，大规模ASR推理的计算成本极高，特别是Gemma 4的指令微调转录实验，需要设计高效的批处理流程和严格的实验消融控制。

常用场景

经典使用场景

Script Fidelity Benchmark（简称SFB）是面向多语言自动语音识别（ASR）系统书写体系忠实度的专项评估基准。该数据集聚焦于FLEURS语料库中涵盖普什图语、乌尔都语、阿拉伯语、波斯语、印地语、孟加拉语、马拉雅拉姆语、泰米尔语、索马里语及格鲁吉亚语等十种语言及其对应的九种书写系统，构建了跨越Whisper、MMS-1B、SeamlessM4T-v2及Gemma 4等主流ASR模型家族的100个模型-语言对评估矩阵。研究者可利用该数据集系统性地量化ASR输出文本在目标正字法层面上的偏离程度，从而揭示多语言ASR中普遍存在的“书写系统坍缩”现象——即模型倾向于将非拉丁字母语言错误地转写为拉丁字母或罗马化形式。基于Script Fidelity Rate（SFR）这一无参考指标，该基准为评估ASR系统输出的书写系统保真度提供了标准化工具，有效弥补了传统词错误率（WER）在衡量书写系统维度上的盲区。

衍生相关工作

该数据集催生了多个方向的衍生工作。在评估方法论层面，SFR指标的PyPI包及Hugging Face Evaluate社区指标已作为独立工具被广泛集成，研究者将其扩展至更大规模的语言覆盖（如缅甸语、高棉语）。基于SFB的书写系统感知提示缓解策略直接启发了后续的“书写约束解码”方法，通过在束搜索阶段注入书写系统偏好模型，将Whisper-large-v3在普什图语上的SFR从43%提升至89%。在下游任务验证方面，下游机器翻译验证模块被移植为独立的“ASR-MT兼容性审计框架”，用于评估语音到翻译管线的端到端书写系统鲁棒性。此外，该数据集引入的SFR+LID混合审计方法催生了“书写系统感知的语言识别”研究方向，相关模型通过融合字符级SFR与语种概率分布，在跨书写系统混淆场景下实现了15%的语种识别准确率提升。学术界也已将该基准的100对评估矩阵作为标准测试床，用于比较不同ASR架构（端到端Transformer vs. 级联RNN-T）对书写系统坍缩的脆弱性差异。

数据集最近研究