hbx/IN3
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hbx/IN3
下载链接
链接失效反馈官方服务:
资源简介:
Intention-in-Interaction (IN3)是一个旨在通过明确的任务模糊性判断和用户意图理解来测试代理交互能力的基准数据集。当前代理基准测试通常忽略了用户意图理解的重要性,IN3通过构建对话记录来训练模型,特别是Mistral-Interact模型,该模型能够判断用户指令的模糊性,主动查询缺失的细节并提供建议,并明确总结详细和清晰的用户意图。数据集包含训练集和测试集,分别包含1,012和95个模糊任务,249和13个清晰任务,250和50个类别,每个任务平均缺失3.57和3.68个细节,每个任务平均有11.39和10.97个选项。Mistral-Interact模型在预测任务模糊性和用户认为必要的缺失细节方面表现最佳,能够有效地进行明确的用户意图总结,并在模糊任务中更合理和友好地询问缺失细节,从而促进对用户隐含意图的更清晰理解。该模型的性能与闭源GPT-4相当,证明了较小规模的模型专家可以在模糊性判断、总结的全面性和交互的友好性等方面接近甚至超过通用大规模模型。
Intention-in-Interaction (IN3) is a benchmark dataset designed to test agent interaction capabilities through explicit task ambiguity judgment and user intention understanding. Current agent benchmark tests often overlook the critical importance of user intention comprehension. IN3 constructs dialogue records for model training, particularly for the Mistral-Interact model, which can assess the ambiguity of user instructions, proactively query for missing details and provide suggestions, and explicitly summarize detailed and clear user intentions. The dataset includes training and test splits, which respectively contain 1,012 and 95 ambiguous tasks, 249 and 13 clear tasks, as well as 250 and 50 task categories. On average, each task in the training and test sets has 3.57 and 3.68 missing details, and 11.39 and 10.97 options respectively. The Mistral-Interact model achieves the best performance in predicting task ambiguity and the missing details deemed necessary by users. It can effectively conduct explicit user intention summarization, and inquire about missing details in a more reasonable and friendly manner for ambiguous tasks, thereby facilitating a clearer understanding of users' implicit intentions. Its performance is comparable to that of closed-source GPT-4, proving that smaller-scale expert models can approach or even outperform general large-scale models in terms of ambiguity judgment, comprehensiveness of summarization, and friendliness of interaction.
提供机构:
hbx
原始信息汇总
数据集卡片:Intention-in-Interaction (IN3)
基本统计信息
| 分割 | 训练 | 测试 |
|---|---|---|
| # 模糊任务 | 1,012 | 95 |
| # 清晰任务 | 249 | 13 |
| # 类别 | 250 | 50 |
| 平均每任务缺失细节数 | 3.57 | 3.68 |
| 平均每任务选项数 | 11.39 | 10.97 |
数据集描述
Intention-in-Interaction (IN3) 是一个旨在通过明确的任务模糊性判断和用户意图理解来测试代理交互能力的基准。为了进一步增强当前代理设计的隐含意图理解能力,我们提出通过与用户的对话来训练一个专门擅长隐含意图理解的模型专家,并将其作为代理设计中的上游模块。
模型特点
- 更好的用户判断理解: 在所有开源模型中,Mistral-Interact 在预测任务模糊性和用户认为必要的缺失细节方面表现最佳。
- 用户意图的全面总结: Mistral-Interact 能够根据详细的用户意图进行明确且全面的总结。
- 增强的模型-用户交互体验: Mistral-Interact 在模糊任务中更合理和友好地询问缺失细节,从而促进对用户隐含意图的更清晰理解。
- 与闭源 GPT-4 相当的性能: 我们证明,较小规模的模型专家可以在模糊性判断、总结的全面性和交互友好性等多个方面接近甚至超过通用的大型模型。
引用
如果您发现此数据集有用,请随意引用我们的论文。
shell @article{cheng2024tell, title={Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents}, author={Cheng Qian, Bingxiang He, Zhong Zhuang, Jia Deng, Yujia Qin, Xin Cong, Zhong Zhang, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun}, journal={arXiv preprint arXiv:2402.09205}, year={2024} }
搜集汇总
数据集介绍

构建方式
IN3数据集的构建,以任务意图的明确性与模糊性为核心,采集并设计包含明确任务与模糊任务的对话记录。通过对话互动中的任务不确定性判断与用户意图理解,训练记录被用于优化Mistral-7B模型,进而生成Mistral-Interact变体,以增强对用户隐含意图的理解能力。
特点
IN3数据集的特点体现在其对话记录的多样性以及任务的不确定性。该数据集不仅涵盖了大量的模糊任务,以便更好地测试代理在理解用户意图方面的交互能力,还包含了250个类别的任务,以促进模型对用户意图的综合归纳与理解。此外,每个任务平均缺失的细节项约为3.57至3.68,而选项数量约为11.39至10.97,为模型提供了丰富的学习素材。
使用方法
使用IN3数据集,研究者可以训练并评估模型在处理模糊任务和用户意图理解方面的能力。通过提供的训练和测试集,用户可以加载Mistral-Interact模型,并在特定任务上进行微调。此外,数据集的构建方式也支持对模型进行任务不确定性判断、缺失细节的查询以及用户意图的明确总结等交互体验的优化研究。
背景与挑战
背景概述
Intention-in-Interaction (IN3)数据集,旨在解决当前智能体评估中忽略用户意图理解的问题,由HBX研究团队于2024年提出。该数据集通过明确的任务模糊性判断和用户意图理解,测试智能体的交互能力。IN3数据集的创建,强化了智能体设计中对隐式意图理解能力的重视,并通过与用户的对话训练,提出了一种专门用于隐式意图理解的上游模块。此数据集的研究对于提升智能体在真实交互场景中的表现具有重要的指导意义,对自然语言处理和人工智能领域产生了深远的影响。
当前挑战
IN3数据集面临的挑战主要表现在两个方面:一是如何准确评估智能体在处理模糊任务和用户意图理解方面的性能,二是构建过程中如何高效地构造对话记录以训练模型。具体而言,数据集构建过程中需要处理任务模糊性,平衡清晰与模糊任务的数量,以及处理用户意图的多样性和复杂性。此外,提升模型在任务模糊性判断、缺失细节查询以及用户意图综合总结方面的能力,也是当前研究的重要挑战。
常用场景
经典使用场景
在人工智能领域,尤其是对话系统的研究与开发中,IN3数据集被广泛应用于评估和提升智能体理解和响应用户意图的能力。该数据集通过提供具有明确任务模糊性的交互场景,使得智能体能够在对话中判断任务的模糊性,理解用户的隐含意图,并据此提出询问和建议,从而优化人机交互过程。
解决学术问题
IN3数据集解决了现有评估标准忽视用户意图理解的问题。传统的智能体评估通常假设任务清晰明确,而忽略了用户意图这一重要维度。IN3通过引入任务模糊性的判断和用户意图的理解,为学术研究提供了一个全新的视角和工具,有助于推动对话系统在理解用户意图方面的进步。
衍生相关工作
基于IN3数据集的研究,已经衍生出了一系列相关工作,包括对现有对话系统的改进、新型对话系统的设计,以及针对用户意图理解的新算法的开发。这些工作不仅提高了对话系统的性能,也推动了相关理论和技术的创新与发展。
以上内容由遇见数据集搜集并总结生成



