omniASR-igbo-blindspots

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/Chiz/omniASR-igbo-blindspots

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'omniASR Igbo Blind Spot Dataset'，旨在评估多语言自动语音识别（ASR）系统在伊博语（一种声调语言）上的声调保真度。数据集包含21个系统设计的音频样本及其元数据，用于测试ASR在低资源非洲语言（特别是伊博语）上的表现。研究发现，facebook/omniASR-CTC-1B模型在处理伊博语时存在75.5%的声调标记丢失率，并且在单调语音上错误地添加了声调标记（即出现声调幻觉）。数据集结构包括音频文件、元数据CSV和README文件。元数据包含文件名、真实转录、模型输出、错误类别、语言代码、字符错误率等字段。该数据集适用于ASR开发者评估非洲语言的声调准确性，以及研究多语言ASR中的语言公平性问题。

创建时间：

2026-03-01

原始信息汇总

omniASR Igbo 盲点数据集概述

数据集基本信息

语言: 伊博语 (ig)
许可证: CC-BY-4.0
任务类别: 自动语音识别
标签: 非洲语言、低资源语言、声调语言、ASR偏见、模型评估、伊博语
规模类别: n<1K

研究问题

本数据集探讨了关于多语言ASR在声调语言性能上的三个相互关联的问题：

操作定义: 当一个模型声称支持1600多种语言时，“语言支持”意味着什么？覆盖范围是否意味着在语言学的有意义的区分上具有功能性的准确度？
诊断有效性: 声调变音符号的保留能否作为低资源语言中声学能力与正字法模式匹配的诊断指标？
系统性评估: facebook/omniASR-CTC-1B模型在伊博语中是否表现出系统性的声调塌缩？如果是，会出现哪些错误模式？

数据集概述

本数据集提供了一个受控的诊断性评估，用于评估facebook/omniASR-CTC-1B模型在处理伊博语（ibo_Latn）时的声调保真度。伊博语是一种声调的尼日尔-刚果语系语言，拥有约4500万使用者。通过21个系统性设计的音频样本，我们记录了在声调标记上75.5%的变音符号丢失率（bootstrap 95% CI: [57.1%, 89.7%]；基于话语级别重采样的bootstrap均值估计；原始聚合计数：30/49 = 61.2%），并提供了与概率性变音符号生成而非稳健的声学条件反射相一致的证据。

关键发现: 该模型在声调标记上表现出75.5%的变音符号丢失率，无法区分声调最小对立对，并且反常地在单一声调语音上幻觉生成变音符号。

数据集结构

huggingface_dataset/ ├── audio/ # 21个WAV文件 (16kHz 单声道) ├── metadata.csv # 真实标签、模型输出、错误指标 └── README.md # 说明文件

元数据模式

列名	描述
`file_name`	音频文件路径
`ground_truth`	带有声调标记的正确转录
`model_output`	omniASR-CTC-1B的预测结果
`category`	错误类别（见下文分类）
`subcategory`	具体的测试条件
`language`	语言代码 (ibo_Latn, yor_Latn, fra_Latn, mixed)
`character_error_rate`	字符级错误率 (0-1)
`diacritics_expected`	真实标签中的声调标记数量
`diacritics_produced`	模型输出中的声调标记数量
`diacritic_loss`	变音符号净差值（负值表示幻觉生成）

错误分类与发现

1. 跨语言正字法干扰（5个样本）

假设: 模型将其他语言的不正确正字法惯例应用于伊博语文本。发现: 模型经常在不存在的地方添加不正确的变音符号（-38.9%的净变音符号丢失率 = 38.9%的幻觉生成率），表明存在来自其他支持语言的跨语言干扰。

2. 音位声调敏感性（6个样本）

假设: 模型无法区分伊博语中具有音位对比性的声调。发现:

75.5%的变音符号丢失率（bootstrap估计；原始计数：30/49个声调标记）
Bootstrap 95% CI: [57.1%, 89.7%]
在单一声调语音上CER为74.4%，而模型添加了不存在的声调
模型输出将多个声调最小对立对形式塌缩为一个共享的正字法表示，表明在此评估设置中声调可分离性较弱

3. 语言边界效应（5个样本）

假设: 英语-伊博语语码转换（在尼日利亚语音中极为常见）扰乱了语言特定的处理。发现: 14.3%的变音符号丢失率。英语部分转录完美，而相邻的伊博语丢失了声调标记（例如，“The ụlọ is beautiful” → “te ulọ is beautiful”），表明语言检测边界影响了正字法保真度。

4. 领域特定词汇覆盖（5个样本）

假设: 模型难以处理训练分布之外的文化特定术语、地名和惯用表达。发现:

最佳的变音符号保留率（6.3%丢失率），但词级错误率高（30% CER）
地名被破坏：“Owerri” → “weri”（音节缺失）
高资源语言法语表现意外地差（捷克/斯拉夫字符幻觉生成）

定量总结

类别	样本数	变音符号丢失率	平均CER
音位声调敏感性	6	75.5%	50.6%
跨语言正字法干扰	5	-38.9% (幻觉生成)	28.8%
领域特定词汇覆盖	5	6.3%	30.1%
语言边界效应	5	14.3%	20.0%
总计	21	26.8%	32.5%

统计分析

原始变音符号丢失率 (RDD): 音位声调敏感性类别的原始丢失计数为30/49，原始RDD为61.2%。
变音符号错误率 (DER): 总体DER为26.8%，音位声调敏感性DER为75.5%。
Bootstrap不确定性估计:
- 音位声调敏感性：Bootstrap平均DER为75.5%，95% CI: [57.1%, 89.7%]
- 总体变音符号丢失率（仅丢失）：Bootstrap平均RDD为52.6%，95% CI: [30.3%, 69.7%]
- 字符错误率 (CER)：总体CER为0.333，95% CI: [0.267, 0.402]

关键音频示例

06_tonal_akwa.wav - 声调最小对立对（4个不同的词塌缩为随机输出）
09_tonal_flat.wav - 带有幻觉生成变音符号的单一声调语音
11_codesw_en2ig.wav - 语码转换（英语完美，伊博语丢失声调）

性能差距：声称 vs. 实测

Meta的omnilingual ASR论文声称：omniASR在78%的支持语言上实现CER <10%，伊博语（ibo_Latn）被列为1600多种支持语言之一。
本数据集发现:
- 总体CER: 32.5%（比声称阈值差3.25倍）
- 声调类别CER: 50.6%（比声称阈值差5倍）
- 最差样本CER: 74.4%（比声称阈值差7.4倍）

使用案例

本数据集设计用于：

ASR开发者: 为非洲语言进行声调准确性的基准测试

搜集汇总

数据集介绍

构建方式

在自动语音识别领域，针对低资源语言性能评估的需求日益凸显，本数据集通过精心设计的实验框架构建而成。研究者以伊博语这一拥有约4500万使用者的声调语言为研究对象，系统录制了21个音频样本，涵盖声调最小对、跨语言干扰、语码转换及特定领域词汇等多种测试条件。每个样本均配有由母语者标注的准确转写文本，并与facebook/omniASR-CTC-1B模型的输出进行对比，通过元数据文件详细记录了字符错误率、声调标记丢失数量等量化指标，从而形成一套用于诊断声调保真度的结构化评估资源。

使用方法

该数据集主要服务于语音识别模型的评估与诊断研究。使用者可通过加载数据集中的音频文件及对应的元数据，定量分析目标ASR模型在伊博语声调保真度、跨语言干扰、语码切换等维度的性能。具体而言，研究者可以计算模型输出的声调标记丢失率、字符错误率等指标，并与数据集中提供的基线结果进行对比。数据集的结构化错误分类（如音位声调敏感性、语言边界效应）为误差分析提供了清晰框架，有助于识别模型在特定语言学场景下的薄弱环节，进而指导针对低资源声调语言的模型改进工作。

背景与挑战

背景概述

在自动语音识别技术迅速发展的背景下，多语言模型的覆盖范围日益扩大，然而对低资源语言，特别是声调语言的性能评估仍存在显著空白。omniASR-igbo-blindspots数据集由研究人员于近期创建，旨在系统性地评估facebook/omniASR-CTC-1B模型在处理伊博语（一种拥有约4500万使用者的尼日尔-刚果语系声调语言）时的声调保真度。该数据集通过21个精心设计的音频样本，揭示了模型在声调标记上高达75.5%的丢失率，并提供了声调最小对立词无法区分的实证证据。这项工作不仅填补了现有ASR基准测试在声调语言评估方面的缺失，也为理解多语言模型中名义支持与实际能力之间的差距提供了关键见解。

当前挑战

该数据集核心挑战在于解决多语言自动语音识别在声调语言上面临的评估难题。具体而言，声调在伊博语中承载着区别词义的功能，声调标记的丢失会导致语义扭曲，例如将‘àkwà’（鸡蛋）误译为‘akwa’（哭泣）。这种错误并非简单的字符误差，而是涉及语言基本结构的系统性失效。在数据集构建过程中，挑战主要来自如何设计能够精确诊断声调敏感性的测试用例，包括声调最小对立词、跨语言正字法干扰以及代码转换场景的模拟。此外，在低资源条件下获取权威的母语者标注以建立可靠的地面真值，亦是确保评估有效性的关键。

常用场景

经典使用场景

在自动语音识别（ASR）领域，针对低资源语言和声调语言的模型评估常面临数据稀缺与评估标准缺失的挑战。omniASR-igbo-blindspots数据集通过精心设计的21个音频样本，系统性地评估了facebook/omniASR-CTC-1B模型在伊博语（Igbo）上的声调保真度。该数据集的核心应用场景在于诊断多语言ASR模型在声调语言上的性能盲点，尤其关注模型是否能够保留具有语言学意义的声调区分。研究者可利用该数据集量化声调标记的丢失率，分析跨语言正交干扰、音位声调敏感性等错误模式，从而为改进模型在低资源声调语言上的声学建模能力提供实证依据。

解决学术问题

该数据集致力于解决多语言ASR研究中的几个关键学术问题。首先，它探究了模型声称“支持”大量语言的实际内涵，揭示了名义上的语言覆盖与功能性准确率之间的显著差距。其次，数据集将声调变音符号的保留作为诊断指标，用以区分模型的声学能力与正交模式匹配倾向，这在低资源语言评估中具有方法论创新意义。最后，它系统性地证明了omniASR-CTC-1B模型在伊博语上存在系统性的声调塌缩现象，表现为高达75.5%的声调标记丢失率，并伴随有声调幻觉错误。这些发现挑战了仅以字符错误率（CER）或词错误率（WER）作为评估标准的传统范式，强调了针对声调等语言学特征进行专项评估的必要性。

实际应用

在实际应用层面，该数据集揭示了当前大规模多语言ASR模型在服务全球多样化语言社群时存在的局限性。伊博语作为拥有约4500万使用者的主要世界语言，其声调承载着区分词义的关键功能。模型在声调保真度上的系统性失败，可能导致语音助手、无障碍工具、教育应用及翻译系统等下游产品产生严重的语义错误。例如，将意为“鸡蛋”的“àkwà”误译为“哭泣”的“akwa”，使得输出结果变得毫无意义。因此，该数据集为ASR开发者和产品团队提供了关键的警示与评估基准，敦促他们在部署面向声调语言的服务前，必须进行超越通用错误率的、针对语言学特征的严格测试，以确保技术的公平性与实用性。

数据集最近研究