IntentGrasp

github2026-05-11 更新2026-05-13 收录

下载链接：

https://github.com/YuweiYin/IntentGrasp

下载链接

链接失效反馈

官方服务：

资源简介：

IntentGrasp是一个大规模、全面且标准化的基准，用于评估跨多个领域和不同实例类型的意图理解能力。它源自49个高质量、开放许可的语料库，涵盖12个不同领域，通过源数据集整理、意图标签上下文化和任务格式统一构建而成。IntentGrasp包含一个包含262,759个实例的大规模训练集，以及两个评估集：一个包含12,909个测试案例的All Set和一个更平衡且具有挑战性的包含470个案例的Gem Set。

IntentGrasp is a large-scale, comprehensive and standardized benchmark for evaluating intent understanding capabilities across multiple domains and diverse instance types. Derived from 49 high-quality, open-licensed corpora spanning 12 distinct domains, it is constructed through source dataset curation, intent label contextualization and task format unification. IntentGrasp includes a large-scale training set with 262,759 instances, as well as two evaluation datasets: the All Set containing 12,909 test cases, and the more balanced and challenging Gem Set with 470 cases.

创建时间：

2026-05-07

原始信息汇总

IntentGrasp 数据集概述

基本信息

数据集名称：IntentGrasp
发布机构：不列颠哥伦比亚大学（UBC）NLP 研究组
论文链接：https://arxiv.org/abs/2605.06832
数据集下载地址：https://huggingface.co/datasets/yuweiyin/IntentGrasp
许可协议：数据集采用 CC BY-NC-SA 4.0 许可，代码采用 Apache 2.0 许可

数据集构建

IntentGrasp 是通过以下流程构建的综合性意图理解基准数据集：

来源：源自 49 个高质量、开源许可的语料库
覆盖领域：涵盖 12 个不同领域
构建步骤：包括源数据整理、意图标签语境化以及任务格式统一

数据集规模

数据集划分	样本数量
训练集	262,759 条
All Set（测试集）	12,909 条
Gem Set（均衡高难度测试集）	470 条

数据集目录结构

数据集在 Hugging Face 上组织为以下结构：

data/intent_grasp/all/：包含全部测试集的元数据、训练和测试数据（parquet 和 jsonl 格式）
data/intent_grasp/gem/：包含 Gem Set 的元数据、测试数据（parquet 和 jsonl 格式）

评估结果

主要发现

对 20 个 LLM（涵盖 7 个模型家族，包括 GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.7 等前沿模型）的评估显示性能不佳
All Set 上的得分低于 60%，Gem Set 上低于 25%
在 Gem Set 上，20 个测试模型中有 17 个表现低于随机猜测基线（15.2%）
估计的人类表现约为 81.1%，显示 LLM 在意图理解方面仍有较大提升空间

意图微调（IFT）效果

在 IntentGrasp 训练集上进行 IFT 后，模型在 All Set 上获得 30 以上的 F1 分数提升
Gem Set 上获得 20 以上的 F1 分数提升
留一领域交叉验证（Lodo）实验证明了 IFT 强大的跨领域泛化能力

数据集关键信息

核心任务：评估和提升大语言模型的意图理解能力
论文关键词：意图理解、数据集、基准测试、大语言模型、评估、意图微调
主要贡献：提供了一个全面的意图理解基准，并提出了 Intentional Fine-Tuning（IFT）方法以显著增强 LLM 的意图理解能力

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，准确理解话语背后的意图是构建智能语言模型助手的核心挑战。为此，IntentGrasp基准数据集应运而生，其构建过程严谨而系统：首先从涵盖12个不同领域的49个高质量开放许可语料库中精心筛选源数据，随后对原始意图标签进行语义上下文化的增强处理，最后统一为标准化任务格式。该过程最终产出一个大规模训练集，包含262,759个实例，以及两个评估集——涵盖12,909个测试用例的全量集与包含470个更为平衡且富有挑战性的精选集。

使用方法

该数据集的使用方法灵活多样，旨在支持全面的意图理解研究。研究者可直接从Hugging Face平台获取数据，并遵循提供的脚本进行模型评估——通过bash run_gen_hf.sh对开源模型进行生成与评测，或通过设置API密钥后运行bash run_gen_api.sh对商业模型（如GPT-5.4、Gemini等）进行测试。为提升模型能力，数据集还配套了意图定向微调（IFT）方法，研究者可运行run_build_ift_data.sh准备训练数据，再通过run_train_ift.sh或优化的unsloth版脚本进行微调，并基于验证集表现选择最佳检查点。此外，留一域交叉（Lodo）实验脚本则用于验证微调后的跨域泛化能力。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的当下，准确理解对话与文本中的意图已成为构建智能助手的核心挑战。为此，不列颠哥伦比亚大学NLP研究组的尹雨薇、李楚源和Giuseppe Carenini于2026年推出了IntentGrasp基准数据集。该数据集融合了来自12个领域的49个高质量开源语料库，通过意图标签情境化与任务格式统一等精细构建流程，形成了涵盖262,759条训练样本及两个评测集的大规模资源。评测结果显示，包括GPT-5.4、Gemini-3.1-Pro在内的前沿模型在Gem Set上表现不及随机基线，揭示了现有LLM在意图理解上的显著短板，而人类表现可达81.1%，凸显了该领域广阔的研究空间。IntentGrasp不仅为意图理解提供了标准化评估框架，还通过提出的意图微调（IFT）方法证明了跨域泛化能力，有力推动了更智能、更安全的AI助手的发展。

当前挑战

IntentGrasp致力于应对两大核心挑战：一是领域问题层面，当前LLM在细粒度意图理解上严重不足——在Gem Set评测中，20个模型中有17个表现差于15.2%的随机基线，而人类上限高达81.1%，揭示了模型在歧义消解、隐含意图推断及多领域泛化方面的系统性缺陷。二是构建过程中面临的数据异构性难题：需从49个不同来源的语料库中提取并标准化意图标签，通过情境化处理减少领域偏差，同时保证262,759条训练样本的标注一致性。此外，设计平衡且具挑战性的Gem Set（仅470例）需剔除冗余样本，以确保评测能准确反映模型鲁棒性。这些挑战的解决为意图理解研究提供了坚实基准，但也暴露了现有模型与人类能力间的巨大鸿沟。

常用场景

经典使用场景

在大语言模型（LLM）飞速发展的时代，理解人类语言中的深层意图成为了构建智能助手的核心挑战。IntentGrasp作为一项综合性基准测试，被广泛用于评估和提升LLM的意图理解能力。其经典使用场景包括在多样化的对话系统、指令遵循任务和多轮交互中，对模型是否准确捕捉用户真实诉求进行标准化评测。研究者通过在该基准上对参数量从数十亿到数千亿不等的开源与闭源模型进行测试，系统性地揭示当前模型在意图识别上的薄弱环节。

解决学术问题

IntentGrasp旨在解决现有意图理解评估基准缺失系统性与跨领域泛化能力不足的学术难题。传统数据集往往局限于单一领域或缺乏精细意图标注，导致模型在真实场景中的意图理解表现难以衡定。该基准通过整合49个高质量开源语料，覆盖12个领域，构建了大规模训练集与具有挑战性的评测集，为LLM意图理解能力提供了可靠且多维度的评估标尺。其研究意义在于，首次揭示了多数顶级LLM在复杂意图场景下甚至低于随机猜测基线的严峻现状，同时提出Intentional Fine-Tuning（IFT）方法，为后续研究开辟了朝向可控、安全AI助手的新路径。

实际应用

在智能客服、虚拟助手和机器人交互等实际应用中，意图理解直接关乎用户体验与任务完成效率。IntentGrasp数据集的应用使开发者能够精准诊断模型在真实对话中的误判来源，尤其是当用户表达存在歧义或隐含需求时。借助该数据集的训练与评估机制，企业可以对自有模型进行针对性微调，显著提升其在不同行业（如医疗咨询、金融指导、教育辅助）中识别用户真实动机的能力。实践表明，IFT微调能使模型在多项评测上的F1值提升超过30个点，进而推动更自然、更高效的人机协作落地。

数据集最近研究