atekrugis/intent-classification-v9-boundary-baseline

Name: atekrugis/intent-classification-v9-boundary-baseline
Creator: atekrugis
Published: 2026-04-25 09:33:46
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/atekrugis/intent-classification-v9-boundary-baseline

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于v9边界聚焦fastText路由器的基线训练池。包含65,595行数据，每行有prompt（字符串）和final_label（字符串）两列，标签分为六类：BASIC、SIMPLE、CHAT、REASONING、TOOL、CODING。数据来源于多个公开数据集，包括OpenVoiceOS意图数据、OpenAssistant对话数据、SetFit/MASSIVE意图数据、OpenAI GSM8K推理数据、Glaive函数调用风格工具请求数据和Hugging Face编码指令数据。数据集经过聚合、过滤、去重和边界增强等处理步骤，主要用于训练意图路由分类器、六种提示意图预测的基准测试和构建对话请求路由器。

This dataset is the baseline training pool used for the v9 boundary-focused fastText router. It contains 65,595 rows with two columns: prompt (string) and final_label (string). The labels are divided into six categories: BASIC, SIMPLE, CHAT, REASONING, TOOL, and CODING. The data is sourced from multiple public datasets, including OpenVoiceOS intent data, OpenAssistant conversational data, SetFit/MASSIVE intent data, OpenAI GSM8K reasoning data, Glaive function-calling style tool-request data, and Hugging Face coding instruction data. The dataset has undergone processing steps such as aggregation, filtering, deduplication, and boundary augmentation, and is primarily used for training intent-routing classifiers, benchmarking 6-way prompt intent prediction, and building conversational request routers.

提供机构：

atekrugis

搜集汇总

数据集介绍

构建方式

该数据集是面向v9边界优化快速文本路由器的基线训练池，通过整合多个公开数据集构建而成。主要数据来源包括OpenVoiceOS意图数据、OpenAssistant对话数据、SetFit/MASSIVE意图数据、OpenAI GSM8K推理数据、Glaive函数调用风格工具请求数据以及Hugging Face编程指令数据。经过源数据聚合、提示归一化与去重、标签专属过滤、边界定向增强等一系列处理步骤，最终形成包含65,595条样本的CSV文件，每条样本由提示文本与六类标签（BASIC、SIMPLE、CHAT、REASONING、TOOL、CODING）组成。

特点

本数据集的核心特点在于其标签分布的显著不平衡性与边界增强的针对性。标签CODING占比最高，达23,331条，而BASIC仅有983条，这种分布反映了实际对话系统中不同意图频率的差异。通过边界定向增强技术，数据集中于强化易混淆意图之间的区分边界，有效提升分类器在决策边界附近的鲁棒性。此外，数据集涵盖广泛意图类型，从简单对话到复杂推理与编程请求，为多维度意图理解提供了丰富素材。

使用方法

该数据集主要用于训练意图路由分类器及六类提示意图预测的基准测试。用户可直接加载CSV文件，将其划分为训练集与验证集，利用提示文本作为输入特征，对应标签作为分类目标，构建机器学习或深度学习模型。在应用时需注意类别不平衡问题，可通过重采样或加权损失函数加以缓解。该数据集特别适用于构建对话系统中的请求路由器，但需避免在未经额外安全保障的关键决策场景中直接使用，或未经重新验证即部署于非英语环境。

背景与挑战

背景概述

意图分类作为对话系统中的核心任务，致力于在用户与智能代理交互的瞬间精准辨识其内在诉求，从而驱动后续的响应生成与动作执行。Intent Classification Baseline v9 Boundary数据集于近期由研究团队构建，聚焦于对话路由中的边界清晰化问题，通过汇集OpenVoiceOS、OpenAssistant、SetFit/MASSIVE、GSM8K、Glaive及Hugging Face编码指令等多元公开数据源，经标准化、去重与边界增强处理，形成了涵盖BASIC、SIMPLE、CHAT、REASONING、TOOL、CODING六大类别的65,595条样本。该数据集旨在为意图路由分类器提供稳健的训练基底，推动六类意图预测的基准测试，对提升对话系统在复杂需求下的路由精准度具有重要价值。

当前挑战

该数据集所应对的领域挑战主要源于对话场景中意图类别的模糊交织与动态演变，尤其是在边界状态下区分BASIC与SIMPLE、TOOL与CODING等相似意图需要精细的语义边界界定，现有模型往往在此类边缘案例中表现出显著的误判。构建过程中面临的挑战则包括：类别严重不平衡，BASIC与TOOL类样本量远低于CODING与CHAT，可能导致分类器对少数类别的泛化能力不足；多源数据融合带来的标注一致性难题，不同来源的意图标签需经复杂筛选与对齐；以及单轮文本固有语境缺失，难以捕捉多轮对话中的隐含意图变化，此外边界增强策略的设计与验证亦是对数据质量的关键考验。

常用场景

经典使用场景

在对话人工智能与自然语言处理领域，意图识别是构建高效人机交互系统的核心环节。该数据集专为文本分类任务设计，涵盖BASIC、SIMPLE、CHAT、REASONING、TOOL和CODING六大意图类别，共65,595条精心标注的样本。其最经典的使用场景是训练六分类意图路由分类器，用于区分用户请求的本质属性——例如判断用户发起的是一般性闲聊、简单指令、复杂推理、工具调用还是编程问题。通过这种细粒度分类，智能助手能够精准地将用户意图导向后续对应的处理模块，从而显著提升系统响应的针对性与效率。

衍生相关工作

围绕该数据集，衍生了一系列具有启发性的研究工作。例如，基于其标签分布特征，学界开展了针对长尾类别（如BASIC和TOOL）的重采样与合成增强算法对比研究；利用其边界增强样本，部分工作探讨了对比学习在意图区分中的迁移效果。此外，该数据集的构建范式——从多个公开资源聚合、去重、再经过边界定向增强——启发了后续研究者在多源异质意图数据融合时的处理流程设计。这些衍生工作不仅验证了数据集本身的可靠性，也推动了工业级意图路由系统从单一模型预测向多层级联合路由的演进。

数据集最近研究