clinc/clinc_oos|意图分类数据集|超出范围查询数据集

hugging_face2024-01-18 更新2024-06-15 收录

意图分类

超出范围查询

下载链接：

https://hf-mirror.com/datasets/clinc/clinc_oos

下载链接

链接失效反馈

资源简介：

CLINC150数据集是一个用于任务导向对话系统的文本分类数据集，特别关注于处理超出系统支持意图范围的查询（OOS）。数据集包含150个意图类别，覆盖10个领域，并且包含了超出这些意图范围的查询。数据集的主要任务是意图分类，特别是处理OOS查询。数据集的结构包括训练集、验证集和测试集，每个集合都包含文本数据和对应的意图标签。

提供机构：

clinc

原始信息汇总

数据集概述

基本信息

数据集名称: CLINC150
语言: 英语
许可证: CC-BY-3.0
多语言性: 单语种
数据集大小: 10K<n<100K
源数据: 原始数据
任务类别: 文本分类
任务ID: 意图分类
PapersWithCode ID: clinc150
别名: CLINC150

数据集配置

配置名称: imbalanced

特征:
- text: 字符串
- intent: 类别标签，包含151个类别
分割:
- train: 10625个样本，546901字节
- validation: 3100个样本，160298字节
- test: 5500个样本，286966字节
下载大小: 441918字节
数据集大小: 994165字节

配置名称: plus

特征:
- text: 字符串
- intent: 类别标签，包含151个类别
分割:
- train: 15250个样本，791247字节
- validation: 3100个样本，160298字节
- test: 5500个样本，286966字节
下载大小: 525729字节
数据集大小: 1238511字节

配置名称: small

特征:
- text: 字符串
- intent: 类别标签，包含151个类别
分割:
- train: 7600个样本，394124字节
- validation: 3100个样本，160298字节
- test: 5500个样本，286966字节
下载大小: 385185字节
数据集大小: 841388字节

数据字段

text: 文本数据
label: 150个意图类别，涵盖10个领域，包含一个“out-of-scope”意图标签。

数据分割

imbalanced:
- train: 10625个样本
- validation: 3100个样本
- test: 5500个样本
plus:
- train: 15250个样本
- validation: 3100个样本
- test: 5500个样本
small:
- train: 7600个样本
- validation: 3100个样本
- test: 5500个样本

AI搜集汇总

数据集介绍

构建方式

CLINC150数据集的构建旨在为任务导向型对话系统提供一个全面的评估基准，特别是针对意图分类任务。该数据集通过众包方式收集，涵盖了150个意图类别，跨越10个领域，并引入了‘out-of-scope’（OOS）类别，以模拟系统在处理未知意图时的挑战。数据集的构建过程中，专家生成了标注，确保了数据的高质量和一致性。

特点

CLINC150数据集的显著特点在于其广泛覆盖的意图类别和引入的‘out-of-scope’类别，这使得模型在处理未知意图时更具鲁棒性。此外，数据集提供了不同规模的分支（imbalanced、plus、small），以适应不同规模和复杂度的模型训练需求。每个样本包含文本和对应的意图标签，标签涵盖了从日常生活到金融、交通等多个领域的具体任务。

使用方法

CLINC150数据集主要用于意图分类任务的评估，特别关注模型在处理‘out-of-scope’查询时的表现。用户可以通过加载数据集的不同配置（如imbalanced、plus、small）来选择适合自己模型的数据规模。数据集提供了训练、验证和测试集，用户可以利用这些数据进行模型的训练和评估，以提升对话系统在实际应用中的性能。

背景与挑战

背景概述

CLINC150数据集由专家生成，旨在解决任务导向对话系统中的意图分类问题，特别是处理‘超出范围’（out-of-scope, OOS）查询的挑战。该数据集涵盖了150个意图类别，跨越10个领域，旨在模拟生产环境中任务导向代理必须处理的广泛需求。通过引入OOS查询，CLINC150为模型提供了一个更严格和现实的基准，以评估其在处理未知或不支持的查询时的性能。该数据集的创建标志着对话系统领域的一个重要进展，特别是在意图分类和对话管理方面。

当前挑战

CLINC150数据集的主要挑战在于处理‘超出范围’的查询，这些查询不属于系统支持的任何意图类别。这要求模型在推理时不能假设每个查询都属于已知的意图类别，从而增加了分类的复杂性。此外，数据集的构建过程中还面临意图类别多样性和数据平衡的挑战，确保每个类别都有足够的样本以避免模型偏差。这些挑战共同推动了对话系统在实际应用中的鲁棒性和泛化能力的提升。

常用场景

经典使用场景

CLINC150数据集的经典使用场景主要集中在任务导向型对话系统的意图分类任务中。该数据集通过包含150个意图类别和10个领域，提供了丰富的文本分类样本，特别适用于评估模型在处理‘超出范围’（out-of-scope, OOS）查询时的表现。通过训练和测试模型在这些数据上的表现，研究者能够更好地理解和提升对话系统在实际应用中的鲁棒性和准确性。

实际应用

在实际应用中，CLINC150数据集被广泛用于开发和优化智能助手、客户服务机器人等任务导向型对话系统。通过使用该数据集训练的模型，系统能够更准确地识别用户意图，尤其是在处理未知或不常见的查询时表现更为出色。这种能力对于提升用户体验、减少误识别率以及增强系统的实用性具有重要意义，尤其在金融、医疗、旅游等领域的智能客服系统中得到了广泛应用。

衍生相关工作

基于CLINC150数据集，研究者们开展了一系列相关工作，包括但不限于改进意图分类模型的算法设计、探索多任务学习在对话系统中的应用、以及研究如何更有效地处理‘超出范围’查询。这些工作不仅推动了意图分类技术的进步，也为对话系统的整体性能提升提供了新的思路和方法。此外，该数据集还被用于评估和比较不同模型的性能，进一步促进了相关领域的技术交流和创新。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章，旨在用于微调大型语言模型，以预测新闻发布后的股票价格变动。数据集包括多个特征，如股票代码、提示、文本、URL、结果、相关性、令牌计数等，并分为训练集、验证集和测试集。

hugging_face 收录

NREL Wind Integration National Dataset (WIND) Toolkit

NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据，覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。

www.nrel.gov 收录

Online Retail II

该在线零售II数据集包含了一家英国注册的非实体店铺在线零售商在2009年12月1日至2011年12月9日期间发生的所有交易记录。该公司主要销售各种场合的独特礼品。该公司的许多客户是批发商。

github 收录