contemmcm/clinc150

Name: contemmcm/clinc150
Creator: contemmcm
Published: 2024-05-12 19:45:02
License: 暂无描述

Hugging Face2024-05-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/contemmcm/clinc150

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于文本分类任务的英语数据集，包含多个领域的文本数据，如银行、信用卡、厨房与餐饮、家居、汽车与通勤、旅行、实用工具、工作、闲聊和元数据等。每个文本数据都有对应的领域和意图标签，意图标签进一步细分为各个领域的具体操作或问题。数据集的文件路径为data_full.csv。

This dataset is an English-language resource designed for text classification tasks. It encompasses text data across multiple domains, including banking, credit cards, kitchen and dining, home, automotive and commuting, travel, utilities, work, small talk, and metadata. Each text sample is paired with corresponding domain and intent labels, where the intent labels are further subdivided into specific operations or questions under each respective domain. The file path of this dataset is data_full.csv.

提供机构：

contemmcm

原始信息汇总

数据集概述

任务类别

文本分类

语言

英语

数据集配置

配置名称: full
数据文件:
- split: complete
- 路径: data_full.csv
- 默认: true

数据集特征

text: 数据类型为字符串
domain: 数据类型为分类标签，包含以下类别：
- oos
- banking
- credit_cards
- kitchen_and_dining
- home
- auto_and_commute
- travel
- utility
- work
- small_talk
- meta
intent: 数据类型为分类标签，包含多个子类别，如：
- banking:freeze_account
- banking:routing
- banking:pin_change
- credit_cards:replacement_card_duration
- kitchen_and_dining:food_last
- home:what_song
- auto_and_commute:current_location
- travel:plug_type
- utility:weather
- work:pto_request_status
- small_talk:who_made_you
- meta:change_speed
split: 数据类型为字符串

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，意图识别是对话系统理解用户需求的核心任务。CLINC150数据集通过精心设计的流程构建而成，涵盖了10个常见领域及一个特殊领域，共计150种意图类别。其构建过程首先定义了多样化的应用场景，包括银行、信用卡、家居等日常交互领域，并针对每个领域设计了具体的用户意图。随后，通过人工撰写或模拟生成的方式，为每个意图创建了多个自然语言表达样本，确保了语言表达的丰富性和真实性。数据集还特别引入了域外（OOS）类别，用以模拟现实对话中超出预设范围的用户查询，增强了模型的泛化能力。最终，所有样本被整合并划分为训练、验证和测试集，为意图分类研究提供了结构化的基准数据。

特点

CLINC150数据集在意图识别任务中展现出鲜明的特征。其覆盖范围广泛，囊括了从金融服务到日常闲聊的多个垂直领域，意图类别总数达到150种，体现了高度的多样性和复杂性。每个意图均配有多个文本实例，这些实例在句式结构和词汇选择上富有变化，能够有效训练模型捕捉语义细微差别。数据集中特意设置的域外类别，模拟了真实对话场景中的未知查询，对模型的鲁棒性提出了挑战。此外，数据集采用清晰的层级标签体系，将领域与意图信息有机结合，为多任务学习或分层分类提供了便利。整体而言，该数据集以其规模、多样性和真实性，成为评估意图分类模型性能的权威基准之一。

使用方法

对于意图识别模型的研究与开发，CLINC150数据集提供了标准化的使用路径。研究者通常将数据集加载后，依据其预设的划分进行训练、验证与测试。在模型训练阶段，可以利用文本字段和对应的意图标签，构建有监督的分类任务，旨在准确预测用户查询的所属意图。由于数据包含领域信息，也可探索联合学习领域和意图的层次化模型。评估时，除了在已知意图上的准确率，模型在域外样本上的识别能力亦是关键指标，这能检验其应对未知查询的拒识性能。该数据集兼容常见的机器学习框架，便于进行基线模型比较和前沿算法验证，推动对话系统理解技术的持续进步。

背景与挑战

背景概述

在自然语言处理领域，意图识别是对话系统的核心任务之一，旨在准确理解用户查询的语义意图。CLINC150数据集由相关研究团队于2019年创建，专注于面向任务的对话系统，涵盖了10个常见领域及150种精细意图类别，并特别引入了域外（OOS）样本以模拟真实场景中的未知查询。该数据集通过提供大规模、多样化的英语对话语料，显著推动了意图分类模型的鲁棒性评估，成为学术界与工业界评估对话系统性能的重要基准。

当前挑战

CLINC150数据集旨在解决开放域对话系统中意图分类的挑战，特别是处理域外查询的识别问题，这对模型的泛化能力提出了较高要求。在构建过程中，研究人员需平衡各领域与意图类别的数据分布，确保样本的多样性与代表性，同时人工标注大量对话语句并验证其一致性，以避免标注偏差影响模型训练效果。

常用场景

经典使用场景

在自然语言处理领域，意图识别是对话系统理解用户需求的核心任务。CLINC150数据集以其涵盖10个领域、150种意图的丰富结构，成为评估和训练意图分类模型的经典基准。该数据集不仅包含领域内标准意图，还特别引入了“超出范围”（OOS）类别，模拟真实对话中用户可能提出系统未预设查询的场景。这一设计使得模型能够在多领域意图分类任务中，同时学习识别已知意图与拒绝无关查询，为对话系统的鲁棒性评估提供了标准化测试平台。

衍生相关工作

围绕CLINC150数据集，学术界衍生了一系列经典研究工作。例如，基于该数据集的意图分类模型如BERT、RoBERTa等预训练语言的微调实验，显著提升了多领域意图识别的准确率。同时，针对OOS检测问题，研究者提出了如深度度量学习、异常分数计算等创新方法，以区分已知意图与未知查询。这些工作不仅推动了意图识别技术的发展，也为后续更复杂的对话理解任务，如多轮对话管理与个性化响应生成，奠定了坚实的实验基础。

数据集最近研究