CV-18 NER
收藏arXiv2026-04-03 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/Elyadata/CV18-NER
下载链接
链接失效反馈官方服务:
资源简介:
CV-18 NER是由ELYADATA团队创建的首个阿拉伯语语音命名实体识别数据集,基于Common Voice 18阿拉伯语子集构建。该数据集包含约8小时15分钟的语音数据,共计7119条标注样本,采用细粒度的Wojood标注体系(21种实体类型)。数据集通过自动预标注与人工修订相结合的方式构建,首先利用AraBERT模型生成伪标签,再由专业标注员进行人工校正,最终过滤掉不含实体的语句。该数据集主要用于评估端到端阿拉伯语语音命名实体识别系统的性能,解决阿拉伯语语音理解任务中标注资源匮乏的问题,为低资源场景下的语义解析提供基准。
提供机构:
ELYADATA
创建时间:
2026-04-03
原始信息汇总
CV-18 NER 数据集概述
数据集基本信息
- 数据集名称:CV-18 NER
- 许可证:cc-by-nc-4.0
- 任务类别:自动语音识别
- 语言:阿拉伯语(ar)
- 标签:命名实体识别、语音命名实体识别
数据集描述
CV-18 NER 是首个公开可用的、用于从阿拉伯语语音中进行命名实体识别的数据集。该数据集通过为阿拉伯语 Common Voice 18 语料库添加手动命名实体识别标注而创建,标注遵循细粒度的 Wojood 模式,涵盖 21 种实体类型。
该数据集为评估流水线系统(自动语音识别 + 文本命名实体识别)和端到端语音命名实体识别模型提供了基准。对于低资源环境和形态复杂语言(如阿拉伯语)的研究具有重要价值。
更多信息
详细信息可查阅论文:CV-18 NER: Augmented Common Voice for Named Entity Recognition from Arabic Speech。
搜集汇总
数据集介绍

构建方式
在阿拉伯语语音命名实体识别领域,数据资源的稀缺性长期制约着相关研究的发展。CV-18 NER数据集的构建巧妙地以开源语音语料库Common Voice 18的阿拉伯语子集为基础,通过两阶段标注流程实现了高质量实体标注。首先,研究者利用在Wojood数据集上微调后的AraBERT v2模型对原始转录文本进行自动预标注,生成初步的命名实体标签。随后,由专业标注人员对所有预标注结果进行人工审查与修正,确保其严格遵循包含21种实体类型的Wojood细粒度标注体系。最终,为聚焦于实体识别任务,数据集中不含实体的语音片段被过滤,形成了包含约8小时训练数据及3小时测试数据的精炼语料库。
使用方法
该数据集为评估和比较语音命名实体识别的不同技术范式提供了标准化的实验平台。研究者可基于CV-18 NER开展两类主要实验:传统的级联管道方法与端到端联合学习方法。级联方法需先使用自动语音识别模型将语音转为文本,再应用文本NER模型提取实体;而端到端方法则直接训练模型从语音信号中预测带有内联BIO风格标签的丰富转录文本。数据集的官方划分包含训练集、开发集和测试集,评估时可采用词错误率衡量转录质量,并使用概念错误率与概念-值错误率专门度量实体识别的性能。通过对比Whisper等弱监督多语言模型与AraBEST-RQ等阿拉伯语特定的自监督模型在不同架构下的表现,能够深入探究声学表征与语义理解之间的关联。
背景与挑战
背景概述
阿拉伯语作为一门形态复杂、缺乏短元音且标注资源稀缺的语言,其端到端语音命名实体识别研究长期处于探索不足的状态。在此背景下,由法国ELYADATA机构的研究人员Youssef Saidi、Haroun Elleuch和Fethi Bougares于2026年创建的CV-18 NER数据集应运而生。该数据集基于Common Voice 18的阿拉伯语子集,并遵循细粒度的Wojood标注体系(包含21种实体类型)进行了人工NER标注,成为首个公开可用的阿拉伯语语音NER基准。其核心研究目标在于推动从阿拉伯语语音中直接提取命名实体的端到端方法发展,填补了该领域标准化资源的空白,为构建鲁棒的阿拉伯语语音理解系统提供了关键数据支撑。
当前挑战
CV-18 NER数据集旨在解决的领域核心挑战,是从语音信号中直接、准确地识别并分类命名实体,这要求模型克服阿拉伯语固有的形态复杂性和语音识别误差传播问题。在数据集构建过程中,面临多重具体挑战:首先,原始语音语料并非为实体识别任务设计,导致实体分布呈现高度不平衡,高频实体类型(如PERS)占据主导,而LAW、CURR等类别样本极其稀疏,形成了长尾分布,对模型学习低频类别构成显著障碍。其次,标注流程依赖单一标注者进行人工修订,虽采用了基于AraBERT的自动预标注以提升效率,但可能引入标注者偏差,且未报告标注者间一致性指标,影响了标注结果的可靠性与可复现性。此外,如何将细粒度的Wojood文本标注体系有效适配至语音领域,并确保声学特征与语义标签的精准对齐,亦是构建过程中的关键难题。
常用场景
经典使用场景
在阿拉伯语语音处理领域,CV-18 NER数据集为端到端语音命名实体识别任务提供了首个公开的基准资源。该数据集基于Common Voice 18的阿拉伯语子集构建,通过精细的Wojood标注方案(涵盖21种实体类型)对语音片段进行人工标注,使得研究者能够直接探索从原始音频信号中提取语义实体的方法。其经典使用场景集中在评估和比较流水线系统与端到端模型在阿拉伯语语音理解任务上的性能,特别是在处理形态复杂、缺乏短元音的阿拉伯语时,为模型设计提供了关键的实验平台。
解决学术问题
CV-18 NER数据集主要解决了阿拉伯语端到端语音命名实体识别研究中资源匮乏的核心问题。传统方法依赖自动语音识别与文本命名实体识别的级联流程,容易因转录错误传播而导致性能下降。该数据集通过提供高质量的标注语音,支持直接联合学习声学与语义表示,从而减少错误传播,提升实体提取的鲁棒性。其意义在于填补了阿拉伯语在该领域的空白,推动了针对形态丰富语言的语音理解研究,并为低资源场景下的模型适配提供了实证依据。
实际应用
在实际应用层面,CV-18 NER数据集可服务于智能语音助手、多语言信息抽取系统以及安全监控等场景。例如,在阿拉伯语地区的客户服务中,系统能够直接从通话录音中识别人名、地点、组织等关键实体,实现高效的信息结构化。此外,该数据集有助于开发适应方言变体的语音理解工具,提升在新闻广播、会议记录等真实环境中的语义解析精度,为跨语言语音处理技术的商业化落地提供支持。
数据集最近研究
最新研究方向
在阿拉伯语语音处理领域,CV-18 NER数据集的推出标志着端到端语音命名实体识别研究迈入新阶段。该数据集基于Common Voice 18构建,并采用细粒度Wojood标注体系,为资源匮乏的阿拉伯语语音理解任务提供了首个公开基准。前沿研究聚焦于比较级联管道与端到端模型的性能差异,实验表明基于Whisper和AraBEST-RQ的端到端系统在概念错误率上显著优于传统管道方法,尤其在处理阿拉伯语形态复杂性方面展现出更强鲁棒性。当前热点围绕多语言弱监督与语言特定自监督表征的融合策略展开,旨在解决低资源场景下实体类别分布不平衡的挑战。这项工作的影响在于为阿拉伯语语音语义解析建立了可复现的实验框架,推动了跨语言语音理解技术的发展。
相关研究论文
- 1CV-18 NER: Augmented Common Voice for Named Entity Recognition from Arabic SpeechELYADATA · 2026年
以上内容由遇见数据集搜集并总结生成



