User Intent Prediction Dataset

github2021-05-24 更新2024-05-31 收录

下载链接：

https://github.com/aasish/userIntentDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在让智能代理理解和学习跨多个移动应用的高级用户意图，例如规划晚餐可能需要使用Yelp、Maps、SMS等应用。数据集包含了训练智能代理所需的各种序列数据和模型。

This dataset is designed to enable intelligent agents to comprehend and learn advanced user intents across multiple mobile applications. For instance, planning a dinner might necessitate the use of apps such as Yelp, Maps, and SMS. The dataset encompasses a variety of sequential data and models essential for training intelligent agents.

创建时间：

2016-07-31

原始信息汇总

数据集概述

数据集目标

本数据集旨在让智能代理理解和学习高级用户意图，这些意图跨越多个移动应用，例如规划晚餐可能需要使用Yelp、Maps、SMS等应用。

数据集内容

App2Vec

使用doc2vec对应用描述进行训练，将每个应用投影到语义空间。
收集智能手机上应用调用的流数据，将其视为语料库，并应用word2vec。

App序列数据

包含训练、测试和验证分割的app序列文件：train.apps.int, test.apps.int, dev.apps.int。
B/I/O标签信息文件：train.labels.int, test.labels.int, dev.labels.int。
CRFSuite序列标注模型。

数据集资源

从19名用户Android手机收集的应用调用序列 (R1.csv)。
清理后的应用序列，移除了与意图无关的应用，并由参与者标注用户意图 (R2.csv)。
应用级别的语音命令，包括手动转录和Google ASR最佳假设 (R3.csv)。

引用信息

若在研究中使用此数据集，请引用以下工作：

@CONFERENCE {sunSLT2016, author = "Ming Sun, Aasish Pappu, Yun-Nung Chen, Alexander I Rudnicky", title = "Weakly Supervised User Intent Detection for Multi-Domain Dialogues", booktitle = "IEEE Workshop on Spoken Language Technology", year = "2016", publisher = "IEEE" }

搜集汇总

数据集介绍

构建方式

User Intent Prediction Dataset的构建基于对用户智能设备上应用调用序列的深度分析。数据集通过收集19位用户的Android手机应用调用序列，并去除与意图无关的应用，最终由参与者标注用户意图。此外，数据集还包含了通过语音命令重新演绎部分意图的转录文本，进一步丰富了数据的多样性和实用性。

使用方法

使用User Intent Prediction Dataset时，研究者可以利用提供的训练、测试和开发数据集进行模型训练和验证。通过应用嵌入技术如doc2vec或word2vec，可以将应用映射到语义空间，进而分析应用序列中的用户意图。此外，数据集中的语音命令转录文本也为意图识别提供了额外的上下文信息，增强了模型的预测能力。

背景与挑战

背景概述

User Intent Prediction Dataset 是由卡内基梅隆大学的研究团队于2016年创建的一个专注于用户意图预测的数据集。该数据集的核心研究问题在于如何让智能代理理解和学习跨多个移动应用的高级用户意图，例如用户可能通过Yelp、地图和短信等应用来规划晚餐。数据集的主要贡献者包括Ming Sun、Aasish Pappu、Yun-Nung Chen和Alexander I. Rudnicky等研究人员。该数据集通过收集19位用户的Android手机应用调用序列，并结合用户意图的标注，为多领域对话中的用户意图检测提供了重要支持。其研究成果发表在IEEE Workshop on Spoken Language Technology上，对自然语言处理和智能对话系统领域产生了深远影响。

当前挑战

User Intent Prediction Dataset 面临的挑战主要体现在两个方面。首先，在领域问题方面，用户意图的多样性和复杂性使得模型难以准确捕捉跨应用的高层次意图。例如，用户可能通过多个应用完成一个任务，而这些应用之间的关联性并不总是显而易见。其次，在数据构建过程中，研究人员需要处理来自不同用户的应用调用序列，这些序列可能包含大量与意图无关的噪声数据，增加了数据清洗和标注的难度。此外，如何将语音命令与应用调用序列有效结合，以增强意图检测的准确性，也是一个亟待解决的技术难题。

常用场景

经典使用场景

User Intent Prediction Dataset 主要用于智能代理系统对用户跨应用行为的意图进行预测。通过分析用户在多个移动应用之间的切换序列，如从Yelp到地图再到短信应用的连续操作，数据集帮助模型理解用户的高层次意图，如规划晚餐等复杂任务。

解决学术问题

该数据集解决了智能代理系统在跨应用场景下用户意图识别的难题。通过提供标注的用户应用序列数据，研究人员可以训练模型以识别用户在不同应用间的行为模式，进而预测其潜在意图。这一研究推动了多领域对话系统中意图检测技术的发展，并为弱监督学习提供了新的实验平台。

实际应用

在实际应用中，User Intent Prediction Dataset 被广泛用于智能助手和个性化推荐系统的开发。例如，智能助手可以根据用户的应用使用习惯，提前预测其下一步操作并提供相关建议，如推荐餐厅或规划路线。这不仅提升了用户体验，还增强了智能设备的交互能力。

数据集最近研究