five

Horn-ASR

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/LesanAI/Horn-ASR
下载链接
链接失效反馈
官方服务:
资源简介:
Horn of Africa ASR Benchmark 是一个多语言自动语音识别评估基准,涵盖非洲之角四种资源匮乏的语言:阿姆哈拉语(Amharic)、奥罗莫语(Oromo)、索马里语(Somali)和提格里尼亚语(Tigrinya)。每种语言包含1,000条评估语句,总计4,000条语句,15.44小时音频,来自975名不同的说话者(以访谈为代理)。音频为16 kHz单声道PCM 16位WAV格式,经过元数据剥离。数据集包含参考转录文本(经母语标注者编辑和验证)、说话者ID、性别、方言、领域标签等信息。数据来源于公共领域的访谈材料,经过严格的质量控制,排除了多说话者混杂、转录不对齐等问题。数据集适用于单语言评估、多语言联合训练评估和零样本迁移研究。数据集采用CC-BY-SA 4.0许可证发布。
创建时间:
2026-05-07
原始信息汇总

Horn of Africa ASR Benchmark 数据集概览

基本信息

  • 数据集名称: Horn of Africa ASR Benchmark (Horn-ASR)
  • 许可证: CC-BY-SA 4.0
  • 语言: 阿姆哈拉语 (am)、奥罗莫语 (om)、索马里语 (so)、提格雷尼亚语 (ti)
  • 任务类别: 自动语音识别 (ASR)
  • 数据集规模: 1K < n < 10K

数据集规模与统计

语言 代码 话语数 时长(小时) 说话人数 性别分布
阿姆哈拉语 am 1000 4.38 524 男518 / 女482
奥罗莫语 om 1000 4.30 572 男503 / 女497
索马里语 so 1000 3.32 294 男523 / 女477
提格雷尼亚语 ti 1000 3.44 320 男500 / 女498 / 未知2
  • 总计: 4000条话语,15.44小时,975位不同说话人
  • 音频格式: 16kHz单声道PCM 16-bit WAV(无元数据)

数据集结构

hf/ ├── am/test/ 1000个.wav文件 + metadata.csv ├── om/test/ 1000个.wav文件 + metadata.csv ├── so/test/ 1000个.wav文件 + metadata.csv └── ti/test/ 1000个.wav文件 + metadata.csv

每个语言仅包含一个test划分。

数据字段

字段 类型 描述
audio Audio(sampling_rate=16000) 16kHz单声道PCM WAV
utterance_id str {语言}_{阶段}_{访谈}_{片段}
transcript str 参考转录文本(注释者编辑,单行)
speaker_id str 访谈ID(作为说话人代理)
gender str 男/女/未知(注释者验证)
dialect str 各语言方言标签
domain str 内容领域分类(15种)
duration_s str 话语时长(秒)
lang str ISO 639代码

方言覆盖

语言 方言标签
阿姆哈拉语 Addis Ababa, Gojam, Gonder, L2, Shewa, Unknown, Wollo
奥罗莫语 Eastern Oromo, Southern Oromo, West Central Oromo
索马里语 Benadiri Somali, Northern Somali (Ogaadeen), Northern Somali (Puntland), Northern Somali (Somaliland), Other
提格雷尼亚语 D, L, Z

数据收集与处理

  • 音频来源: 公开领域的访谈式自发言语
  • 标注流程: 母语注释者对自动转录进行后期编辑或从头转录,经独立质量控制验证
  • 额外标注: 第二轮标注添加/验证性别、方言、领域和地区标签
  • 过滤条件: 移除多说话人污染、转录错位、仇恨言论、脚本式朗读或其他语言内容,从备用池中替换
  • 音频质量: 原始音频编码为24kbps mp3,WAV文件上采样至16kHz,存在带宽限制

预期用途

  • 低资源非洲之角语言的ASR系统基准测试
  • 单语言评估、多语言联合训练评估、零样本迁移研究
  • 仅作为评估基准,非微调语料库

局限性与偏差

  • 带宽限制: 原始24kbps mp3源,高频内容受限
  • 说话人覆盖: 说话人ID为访谈ID,实际说话人数可能小于统计值
  • 方言不平衡: 语言内方言分布不均(如提格雷尼亚语Z=506 vs D=196)
  • 领域偏差: 政治和社交领域占比过高,部分领域少于50条话语
  • 缺失代表: 不包含Maay索马里语和Wallo/Menz阿姆哈拉语
  • 性别标签: 基于注释者音频判断,混合性别访谈片段已被过滤

使用示例

python from datasets import load_dataset am = load_dataset("LesanAI/Horn-ASR", "am", split="test") print(am[0]["audio"]["array"].shape, am[0]["transcript"])

搜集汇总
数据集介绍
main_image_url
构建方式
Horn-ASR基准测试集源自对东非之角四种低资源语言的公共领域访谈音频进行系统性采集与处理。原始音频为24 kbps的mp3格式,由母语注释者利用自动语音识别草案进行后期编辑校对,或从零开始手动转写,并经过独立的质量控制环节验证转录准确性。随后,通过第二轮标注补充了说话人性别、方言、内容领域及地域信息。对于存在多说话人污染、转录错位、仇恨言论或非目标语言内容的片段,研究团队从兼顾多样性的备选池中替换,以确保各语言性别平衡。最终,每个语言选取1000条代表性话语,形成共4000条高质量评估语料。
特点
该基准测试集覆盖阿姆哈拉语、奥罗莫语、索马里语和提格雷尼亚语四种语言,每种语言包含1000段自发的访谈风格语音,总时长达15.44小时,涵盖975个不同说话人。音频统一为16 kHz单声道16位PCM WAV格式,虽受限于原始低比特率而存在频带限制,但真实反映了嘈杂、对话式和带口音的自然语音场景。每条语料均附带丰富的元数据,包括说话人性别、方言标签(如阿姆哈拉语的六个方言类别)、内容领域(15类受控词汇)及语音时长,为细粒度分析提供了可能。值得注意的是,数据集仅包含测试划分,旨在作为评估基准而非训练语料。
使用方法
该数据集通过HuggingFace的datasets库便捷加载,用户可指定语言配置(如'am'对应阿姆哈拉语)并选择测试划分,每条记录包含16 kHz音频数组与参考转录文本。研究者可将其用于单语言自动语音识别评估、多语言联合训练测试或零样本迁移研究。由于语料源自低比特率mp3,模型需适应有限的音频带宽。方言标签支持按地区分析识别性能差异,而15类内容领域标签则有助于评估系统在不同主题上的表现。建议结合提供的方言分类参考文献,针对小样本方言单元报告词错误率时注意置信区间较宽的问题。
背景与挑战
背景概述
Horn-ASR(非洲之角自动语音识别基准)数据集由匿名研究团队于2026年创建,专注于评估非洲之角地区的四种低资源语言——阿姆哈拉语、奥罗莫语、索马里语和提格里尼亚语的语音识别性能。该数据集包含4000条测试语音,共计15.44小时,来自975名不同说话人,音频由24 kbps MP3源上采样至16 kHz单声道PCM格式。核心研究问题在于为这些语言提供标准化评估平台,弥补其在主流ASR基准中的缺失,推动多语言联合训练与零样本迁移研究。该数据集已对学术和商业用途开放(CC-BY-SA 4.0许可),有望促进非洲地区自然语言处理领域的发展。
当前挑战
该数据集面临多重挑战。首先,领域问题方面,低资源语言ASR面临语音带宽受限(原始音频质量较低)、口语化及带口音的非正式会话风格、方言分布不均及部分方言(如索马里语的Maay方言和阿姆哈拉语的Wallo/Menz方言)未被覆盖等困难。其次,构建过程中,研究者需处理来自公共领域的采访音频,经历自动初稿的母语修正、质量验证、多说话人污染剔除、恶意内容过滤、性别与方言标注等复杂流程;此外,音质受限于低比特率MP3源,上采样后无法恢复高频信息,对话语者的身份仅通过采访ID近似估计,可能导致说话人数量的过估。
常用场景
经典使用场景
Horn-ASR数据集专为非洲之角四种低资源语言(阿姆哈拉语、奥罗莫语、索马里语和提格雷尼亚语)的自动语音识别(ASR)模型评估而设计。其经典使用场景涵盖单语言ASR系统的独立基准测试、多语言联合训练模型的跨语言泛化评估,以及零样本迁移学习研究。该数据集刻意只提供测试集,不做微调语料使用,确保了评估的公平性和标准化,成为衡量ASR算法在低资源、高噪声、对话式口音语音场景下性能的权威标杆。
实际应用
在实际应用中,Horn-ASR助力于开发面向非洲之角地区的语音交互产品与服务,例如智能语音助手、自动字幕生成、医疗语音记录、教育领域的口语评估系统等。通过在该基准上持续优化模型,企业与非营利组织能够构建更稳健的ASR引擎,服务于该地区众多阿姆哈拉语、奥罗莫语使用者。其重视噪声环境与自发语音特点,也适配真实场景下的通话转录、会议记录等商业需求。
衍生相关工作
该数据集的发布催生了多项衍生研究工作,包括基于多任务学习的方言识别与ASR联合优化模型、针对低比特率压缩音频的声学特征增强方法、以及利用语言学先验知识的零样本跨语言迁移框架。研究者还基于Horn-ASR的方言与性别标签,探讨了ASR系统中的公平性与偏差缓解策略。此外,该基准刺激了更多针对非洲语言的数据收集与标注项目,形成良性生态,推动学术社区关注低资源语言的语音技术突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作