CV18-NER

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/Elyadata/CV18-NER

下载链接

链接失效反馈

官方服务：

资源简介：

CV-18 NER 是首个公开可用的阿拉伯语语音命名实体识别（NER）数据集。该数据集通过为阿拉伯语 Common Voice 18 语料库添加手动 NER 标注而创建，遵循细粒度的 Wojood 标注体系，涵盖 21 种实体类型。CV-18 NER 为评估管道系统（ASR + 文本 NER）和端到端语音 NER 模型提供了基准，特别适用于低资源环境和形态复杂语言（如阿拉伯语）的研究。数据集采用 CC-BY-NC-4.0 许可协议，主要面向自动语音识别和命名实体识别任务。

创建时间：

2026-03-27

原始信息汇总

CV-18 NER 数据集概述

数据集基本信息

数据集名称: CV-18 NER
许可证: cc-by-nc-4.0
任务类别: 自动语音识别
语言: 阿拉伯语
标签: 命名实体识别、语音NER

数据集描述

CV-18 NER 是首个公开可用的、用于从阿拉伯语语音中进行命名实体识别的数据集。该数据集通过为阿拉伯语 Common Voice 18 语料库添加手动NER标注而创建，标注遵循细粒度的Wojood模式，涵盖21种实体类型。

数据集用途

该数据集为评估管道系统（自动语音识别 + 文本命名实体识别）和端到端语音NER模型提供了基准。它对于资源匮乏环境以及阿拉伯语等形态复杂语言的研究具有重要价值。

更多信息

更多详细信息可参阅论文：CV-18 NER: Augmented Common Voice for Named Entity Recognition from Arabic Speech。

搜集汇总

数据集介绍

构建方式

在语音处理与自然语言理解的交叉领域，阿拉伯语因其复杂的形态和稀缺的标注资源而面临独特挑战。CV-18 NER数据集的构建巧妙地应对了这一难题，其基础源于广泛使用的阿拉伯语Common Voice 18语音语料库。研究者们对该语料库进行了系统性的增强，通过人工标注的方式，为语音转录文本引入了精细化的命名实体识别注释。这些注释严格遵循Wojood标注体系，该体系涵盖了多达21种实体类型，从而在语音信号与结构化语义信息之间建立了高质量的对应关系，为后续研究奠定了可靠的数据基础。

特点

作为首个公开可用的阿拉伯语语音命名实体识别数据集，CV-18 NER的突出特点在于其开创性与系统性。它不仅填补了该语言在语音端到端实体识别任务上的数据空白，其采用的Wojood细粒度标注框架也极大丰富了实体的语义层次。数据集的设计兼顾了传统流水线方法与新兴端到端模型的评估需求，为比较不同技术路径提供了统一的基准。尤为重要的是，它在形态复杂且资源相对匮乏的语言环境中，为探索鲁棒性更强的语音理解模型提供了宝贵的实验土壤。

使用方法

对于致力于语音与语言技术的研究者而言，CV-18 NER数据集提供了清晰的应用路径。它主要服务于两大技术范式的评估：一是经典的级联系统，即先通过自动语音识别模块将语音转为文本，再使用文本命名实体识别模型进行信息抽取；二是更为前沿的端到端模型，旨在直接从语音信号中识别并分类命名实体。用户可直接加载该数据集，用于模型训练、性能评测以及跨模态理解能力的分析。相关论文提供了详细的实验设置与基线结果，为复现和推进研究提供了重要参考。

背景与挑战

背景概述

在自然语言处理领域，阿拉伯语因其复杂的形态结构和有限的标注资源，一直面临着诸多挑战。CV-18 NER数据集由研究团队于2024年创建，作为首个公开可用的阿拉伯语语音命名实体识别数据集，它基于Common Voice 18阿拉伯语语料库，并遵循细粒度的Wojood标注模式，涵盖了21种实体类型。该数据集的推出旨在为语音到文本的命名实体识别任务提供基准，尤其关注低资源语言和形态复杂语言的研究，推动了阿拉伯语语音处理技术的发展，并为跨语言信息提取模型提供了重要支撑。

当前挑战

CV-18 NER数据集所解决的核心领域问题在于阿拉伯语语音命名实体识别，这一任务面临语音识别误差传播、阿拉伯语形态复杂性以及低资源环境下模型泛化能力不足等挑战。在构建过程中，研究者需克服手动标注的高成本与一致性难题，同时需将语音信号与文本实体对齐，确保标注质量。此外，数据集规模相对有限，可能制约深度学习模型的性能上限，如何有效利用数据增强技术或迁移学习策略以提升系统鲁棒性，成为后续研究的关键方向。

常用场景

经典使用场景

在阿拉伯语语音处理领域，CV-18 NER数据集为命名实体识别任务提供了关键资源。其经典使用场景在于评估从语音到文本的实体识别系统，无论是采用传统的流水线方法（先进行自动语音识别，再进行文本命名实体识别）还是端到端的语音命名实体识别模型。该数据集特别适用于研究低资源语言和形态复杂的阿拉伯语，为模型在真实语音环境中的性能提供了标准化测试平台。

解决学术问题

CV-18 NER数据集解决了阿拉伯语语音命名实体识别研究中数据稀缺的核心问题。通过基于Common Voice 18语料库进行人工标注，它填补了公开阿拉伯语语音实体识别数据集的空白，并遵循细粒度的Wojood标注体系，覆盖21种实体类型。这为学术界提供了基准数据，促进了低资源语言处理、跨模态信息抽取以及复杂形态语言建模等前沿课题的探索，推动了语音与自然语言处理交叉领域的发展。

衍生相关工作

围绕CV-18 NER数据集，已衍生出多项经典研究工作，主要集中在端到端语音命名实体识别模型的构建与优化。相关研究探索了如何直接从未经转录的语音中提取实体信息，避免了自动语音识别错误传播的问题。这些工作不仅推动了阿拉伯语语音处理技术的进步，也为其他低资源或复杂形态语言的类似任务提供了方法论参考，促进了多语言语音信息抽取领域的整体发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集