DeepPavlov/clinc150
收藏Hugging Face2025-06-21 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/DeepPavlov/clinc150
下载链接
链接失效反馈官方服务:
资源简介:
这是一个文本分类数据集,适用于机器学习研究和实验。数据集通过格式化另一个公开可用的数据集,使其与AutoIntent Library兼容。
This is a text classification dataset intended for machine learning research and experimentation. The dataset is obtained by formatting another publicly available dataset to be compatible with our AutoIntent Library.
提供机构:
DeepPavlov
搜集汇总
数据集介绍

构建方式
在对话系统与意图识别领域,高质量数据集的构建是模型泛化能力的关键。clinc150数据集源自公开资源cmaldona/All-Generalization-OOD-CLINC150,通过AutoIntent库进行结构化转换,确保了数据格式的统一性与兼容性。构建过程涉及意图提取与样本映射,将原始数据中的标签转化为标准意图分类框架,同时分离域内样本与域外样本,形成包含训练、验证与测试的标准划分,为意图识别任务提供了严谨的数据基础。
特点
该数据集在意图识别任务中展现出鲜明的特性,涵盖150个精细定义的意图类别,覆盖广泛的生活与业务场景。数据规模适中,包含超过15000个训练样本与数千个验证测试样本,平衡了模型训练的需求与计算效率。其结构设计支持域外检测,专门设置了域外样本以评估模型对未知意图的识别能力,为研究意图分类的泛化性与鲁棒性提供了重要实验平台。
使用方法
在自然语言处理研究中,clinc150数据集可通过AutoIntent库便捷加载,直接集成于意图识别模型的训练与评估流程。用户可调用Dataset.from_hub接口获取数据,并利用其标准划分进行模型训练、验证与测试。该数据集适用于监督学习框架,支持意图分类模型的性能评测,尤其适合探索模型在域外样本上的表现,为对话系统与智能助手的意图理解研究提供可靠的数据支撑。
背景与挑战
背景概述
在自然语言处理领域,意图识别作为对话系统的核心任务,旨在准确理解用户话语背后的语义目标。CLINC150数据集由DeepPavlov团队于近年构建,其源自cmaldona/All-Generalization-OOD-CLINC150的公开数据,并经过格式化以适配AutoIntent库。该数据集聚焦于开放域对话场景,涵盖150个细粒度意图类别,旨在推动面向未知意图的泛化能力研究。通过提供大规模标注语料,它不仅促进了意图分类模型的性能评估,还为领域外检测等前沿课题提供了基准测试平台,对智能助手与客服系统的技术演进产生了深远影响。
当前挑战
意图识别领域面临的核心挑战在于模型对未知意图的泛化能力,即如何有效区分训练集中未出现的用户查询。CLINC150数据集针对此问题,专门设计了领域外样本以模拟真实场景中的长尾分布。在构建过程中,数据采集需平衡多样性与代表性,确保150个意图类别覆盖日常对话的广泛主题;标注环节则要求精确界定意图边界,避免语义重叠导致的歧义。此外,数据格式转换与库适配涉及复杂的结构化处理,需保持原始数据的完整性与一致性,这对数据工程的严谨性提出了较高要求。
常用场景
经典使用场景
在对话系统与自然语言理解领域,clinc150数据集常被用于意图识别任务的基准测试与模型评估。该数据集囊括了涵盖银行、旅行、餐饮等十个日常领域的150种用户意图,并包含域外样本,为研究者提供了丰富的多领域语义理解场景。经典使用场景包括训练深度神经网络模型,如BERT或RoBERTa,以准确分类用户查询的意图类别,同时评估模型在未知意图上的泛化能力。
衍生相关工作
围绕clinc150数据集,学术界衍生了一系列经典研究工作,包括基于对比学习的意图表示增强、域外意图检测的阈值优化方法,以及少样本意图分类的元学习框架。例如,研究《Out-of-Domain Detection for Natural Language Understanding in Dialog Systems》利用该数据集评估了多种域外检测算法的性能。这些工作不仅深化了对意图理解的理论认识,也为工业级对话系统的开发提供了关键技术支撑。
数据集最近研究
最新研究方向
在自然语言处理领域,意图识别作为对话系统的核心任务,其研究正朝着更精细的泛化能力与鲁棒性方向发展。CLINC150数据集凭借其涵盖150个意图类别及域外样本的丰富结构,已成为评估模型在开放域场景下性能的重要基准。近期前沿研究聚焦于少样本学习与零样本意图发现,旨在提升模型对未见意图的识别能力,同时结合对比学习与元学习策略以增强表示学习的区分度。这些探索不仅推动了对话系统在动态环境中的自适应演进,也为构建更智能、更包容的人机交互界面奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



