five

omniASR-igbo-blindspots

收藏
github2026-03-05 更新2026-03-07 收录
下载链接:
https://github.com/chizkidd/igbo-asr-tonal-evaluation
下载链接
链接失效反馈
官方服务:
资源简介:
21个音频样本,涵盖4个错误类别:1. 跨语言拼写干扰(5个样本);2. 音调敏感性(6个样本);3. 语言边界效应(5个样本);4. 特定领域词汇覆盖(5个样本)。

Twenty-one audio samples covering four error categories: 1. Cross-lingual spelling interference (5 samples); 2. Tone sensitivity (6 samples); 3. Language boundary effect (5 samples); 4. Specific domain vocabulary coverage (5 samples).
创建时间:
2026-03-04
原始信息汇总

Igbo ASR Tonal Evaluation 数据集概述

数据集基本信息

  • 数据集名称: Igbo ASR Tonal Evaluation (omniASR-igbo-blindspots)
  • 托管平台: Hugging Face
  • 数据集地址: https://huggingface.co/datasets/chiz/omniASR-igbo-blindspots
  • 许可证:
    • 代码: MIT License
    • 音频录音: CC-BY-4.0 (需要署名)
    • 元数据/标注: CC0 (公共领域)

研究目的与核心发现

  • 研究目的: 系统评估最先进的多语言ASR模型(facebook/omniASR-CTC-1B)在处理伊博语(一种约有4500万使用者的声调性尼日尔-刚果语系语言)时的声调保真度。
  • 核心发现:
    • 75.5% 的声调标记丢失率(自举法95%置信区间:[57.1%, 89.7%])。
    • 最小对立对崩溃: 模型无法区分具有音位对比性的声调。
    • 正字法偏见: 模型在非声调语音上幻觉式地添加声调标记。
  • 关键洞察: 模型似乎基于词汇先验概率而非声学条件来概率性地生成变音符号。

数据集内容与结构

  • 音频样本数量: 21个。
  • 音频格式: M4A(AAC编解码器,原始iPhone语音备忘录格式)。
  • 样本时长: 每段4-15秒。
  • 录音详情:
    • 说话者: 伊博语母语者(阿菲克波方言,埃邦伊州)。
    • 设备: iPhone SE 第二代。
  • 错误类别:
    1. 跨语言正字法干扰(5个样本)
    2. 音位声调敏感性(6个样本)
    3. 语言边界效应(5个样本)
    4. 领域特定词汇覆盖(5个样本)
  • 数据集文件结构:
    • data/audio/: 包含所有21个M4A音频文件。
    • data/metadata.csv: 包含真实标注、模型输出和评估指标。
    • docs/METHODOLOGY.md: 详细研究方法。
    • results/visualizations/: 包含结果可视化图表。
    • src/: 包含评估指标、可视化及辅助功能的Python代码。

关键结果与指标

定量总结

类别 样本数 变音符号错误率 平均字符错误率
音位声调敏感性 6 75.5% 50.6%
跨语言干扰 5 -38.9% (幻觉) 28.8%
领域特定覆盖 5 6.3% 30.1%
语言边界效应 5 14.3% 20.0%
总体 21 26.8% 32.5%

自举置信区间

  • 声调类别: 75.5% (95% CI: [57.1%, 89.7%])
  • 总体: 52.6% (95% CI: [30.3%, 69.7%])

评估指标

  • DER (变音符号错误率): 捕捉声调标记的丢失和幻觉添加。
  • Bootstrap CIs (自举置信区间): 在话语级别进行10,000次迭代。
  • CER (字符错误率): 标准转录准确率。

评估模型

  • 模型名称: facebook/omniASR-CTC-1B
  • 参数量: 975M
  • 架构: 基于CTC的ASR(wav2vec2风格)
  • 支持语言: 1600+(包括伊博语)

使用与复现

  • 快速开始: 克隆仓库并安装依赖后,可运行 jupyter notebook analysis.ipynb 进行分析。
  • Google Colab: 可通过Colab徽章在云端打开分析笔记本。
  • 评估库: 提供 src/evaluate.pysrc/visualize.pysrc/utils.py 模块用于计算指标和生成可视化。
  • 复现结果: 运行 analysis.ipynb 笔记本中的所有单元,结果将保存至 results/ 目录。

引用格式

bibtex @misc{obasi2026igbo, title={Igbo Blind Spot Dataset for omniASR-CTC-1B: Systematic Evaluation of Tonal Diacritic Loss}, author={Obasi, Chizoba}, year={2026}, publisher={HuggingFace}, howpublished={url{https://huggingface.co/datasets/chiz/omniASR-igbo-blindspots}}, note={Model evaluated: facebook/omniASR-CTC-1B (975M parameters)} }

作者信息

  • 作者: Chizoba Obasi
  • HuggingFace: https://huggingface.co/chiz
  • GitHub: https://github.com/chizkidd
搜集汇总
数据集介绍
main_image_url
构建方式
在自动语音识别领域,针对尼日尔-刚果语系中具有声调特征的伊博语,该数据集的构建聚焦于揭示大规模多语言ASR模型在处理声调语言时存在的系统性缺陷。数据集通过精心设计的实验范式,由一位以阿菲克波方言为母语的伊博语使用者,使用iPhone SE第二代设备录制了21个M4A格式的音频样本。这些样本被系统地划分为四个关键错误类别:跨语言正字法干扰、音位声调敏感性、语言边界效应以及领域特定词汇覆盖,旨在从多维度评估模型对声调信息的捕捉与还原能力。
特点
该数据集的核心特点在于其诊断性设计,专门用于暴露多语言ASR模型在声调语言处理上的盲点。数据集包含的音频样本构成了严谨的对照实验,例如通过声调最小对立对来测试模型的音位区分能力,以及使用平调语音来检验模型是否会产生声调幻觉。定量分析揭示了高达75.5%的声调符号丢失率,并提供了基于自助法的置信区间,使得评估结果具有统计稳健性。此外,数据集配套提供了完整的元数据、评估脚本与可视化工具,形成了一个自包含的研究生态系统。
使用方法
研究人员可通过克隆项目仓库并安装依赖项,快速复现完整的分析流程。核心分析在Jupyter Notebook中展开,该笔记本集成了数据加载、模型推理、指标计算与结果可视化等步骤。用户亦可直接调用项目提供的Python模块,如`src.evaluate`中的`compute_all_metrics`函数来计算声调错误率与字符错误率,或使用`bootstrap_ci`函数进行统计推断。数据集及其代码库旨在支持对omniASR-CTC-1B模型进行审计,并可作为模板扩展到对其他ASR模型或声调语言的系统性评估中。
背景与挑战
背景概述
在自动语音识别技术日益普及的背景下,对低资源语言的支持成为研究的关键瓶颈。omniASR-igbo-blindspots数据集由研究者Chizoba Obasi于2026年创建,旨在系统评估大型多语言ASR模型在处理伊博语时的声调保真度。伊博语作为尼日尔-刚果语系中的声调语言,拥有约4500万使用者,其声调具有区别词义的功能。该数据集聚焦于揭示facebook/omniASR-CTC-1B模型在处理伊博语时存在的系统性声调符号丢失问题,通过精心设计的音频样本,量化了模型在声调识别上的缺陷,为多语言语音模型的公平性与鲁棒性评估提供了重要基准。
当前挑战
该数据集旨在解决多语言自动语音识别模型在声调语言处理上的核心挑战,即模型难以准确识别和转录具有音位对立功能的声调,导致语义信息丢失。具体而言,模型表现出高达75.5%的声调符号丢失率,且无法区分声调最小对立对,甚至在单调语音上幻觉性地添加声调符号。在构建过程中,挑战主要源于声调语言数据资源的稀缺性,以及确保音频样本在跨语言干扰、语码转换、领域特定词汇等不同错误类别中具有代表性和可控性。此外,精确标注声调地面真值并设计能够捕捉声调错误率的评估指标,亦是数据集构建的关键难点。
常用场景
经典使用场景
在语音识别技术领域,针对低资源语言特别是声调语言的模型评估,常面临数据稀缺与评估标准缺失的挑战。omniASR-igbo-blindspots数据集通过精心设计的21个音频样本,覆盖跨语言干扰、音位声调敏感性、语言边界效应及领域特定词汇四大错误类别,为研究者提供了一个系统评估多语言自动语音识别模型在伊博语声调保真度的基准工具。该数据集典型应用于检测模型在声调标记上的丢失与幻觉现象,例如在音位对立的最小对立体中,模型无法区分语义迥异的声调变体,导致高达75.5%的声调符号丢失,从而揭示模型依赖词汇先验而非声学条件生成输出的内在偏差。
实际应用
在实际应用层面,该数据集为开发面向伊博语等声调语言的可靠语音技术提供了关键诊断工具。语音助手、转录服务及教育技术产品若依赖存在声调盲点的模型,可能导致语义混淆,例如将“àkwà”(鸡蛋)误译为“akwa”(哭泣),严重影响沟通准确性。通过利用此数据集进行模型审计与改进,技术开发者能够识别并修复声调处理缺陷,提升语音接口在医疗、金融、司法等对语义精度要求极高领域的适用性,促进语言技术在多元语言社群中的公平性与包容性部署。
衍生相关工作
围绕该数据集揭示的声调丢失现象,已催生一系列针对多语言语音识别模型的批判性评估与改进研究。相关工作扩展至对不同声调语言(如约鲁巴语、汉语方言)的类似审计,并比较Whisper、MMS等主流模型的声调保真度。部分研究进一步探索通过微调干预,利用声调标注数据增强模型对声学线索的敏感性。这些衍生工作共同推动了“声调感知语音识别”这一子领域的发展,促使模型架构设计更注重音位对比的声学基础,为构建真正包容性的全球语音技术生态系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作