SESSIONINTENTBENCH

Name: SESSIONINTENTBENCH
Creator: 香港科技大学计算机科学与工程系, 亚马逊公司
Published: 2025-07-27 17:04:17
License: 暂无描述

arXiv2025-07-27 更新2025-07-30 收录

下载链接：

https://arxiv.org/abs/2507.20185v1

下载链接

链接失效反馈

官方服务：

资源简介：

SESSIONINTENTBENCH是一个多任务跨会话意图转换建模基准，用于电子商务客户行为理解。该数据集包含1952177个意图条目，1132145个会话意图轨迹，以及13003664个可用任务。数据集来源于对10,905个会话的挖掘，并经过人类注释以收集部分数据的真实标签，形成一个评估金集。该数据集旨在评估语言模型在理解会话意图转换方面的能力，并为电子商务产品购买会话中的意图建模提供可扩展的方法。

SESSIONINTENTBENCH is a multi-task cross-session intent transition modeling benchmark dedicated to e-commerce customer behavior understanding. This dataset contains 1,952,177 intent entries, 1,132,145 session intent trajectories, and 13,003,664 available tasks. It is sourced from the mining of 10,905 sessions, and partial data has been manually annotated to gather ground-truth labels, thereby creating a gold standard evaluation set. This benchmark is designed to assess the capability of language models in comprehending session intent transitions, and offer scalable approaches for intent modeling during e-commerce product purchase sessions.

提供机构：

香港科技大学计算机科学与工程系, 亚马逊公司

创建时间：

2025-07-27

搜集汇总

数据集介绍

构建方式

SESSIONINTENTBENCH数据集的构建采用了多模态属性提取和客户意图生成的自动化流程。首先，利用GPT4o-mini从会话产品中提取关键属性，包括产品类别和特征。随后，通过多步提示大型语言模型（L(V)LMs）模拟客户行为，生成可能的意图路径，形成意图树结构。该过程涉及在每个时间步推断多个意图，并通过人类标注验证数据质量，最终构建了一个包含1,952,177个意图条目和1,132,145条意图轨迹的大规模数据集。

特点

SESSIONINTENTBENCH数据集的特点在于其多任务评估框架和丰富的意图元数据分析。数据集包含四个子任务，分别评估模型在意图检测、意图轨迹建模、产品比较和意图演化预测方面的能力。其多模态特性结合了文本和视觉信息，覆盖了13,003,664个任务，提供了细粒度的客户意图变化分析。此外，数据集通过人类标注确保了评估黄金集的可靠性，为复杂会话环境下的意图理解提供了标准化基准。

使用方法

使用SESSIONINTENTBENCH数据集时，研究人员可通过其四个子任务系统评估模型的意图理解能力。任务1要求模型验证新产品与历史意图的匹配度；任务2评估模型基于价值属性的购买可能性推断；任务3检验意图比较的合理性；任务4测试模型对意图演化的预测能力。数据集支持零样本提示、少量样本提示和思维链提示等多种评估方式，并可通过微调外部意图知识库（如MIND）提升模型性能。实验表明，意图注入能显著增强模型对会话意图的捕捉能力。

背景与挑战

背景概述

SESSIONINTENTBENCH是由香港科技大学与亚马逊公司联合推出的一个多任务跨会话意图转移建模基准数据集，旨在促进电子商务场景下客户行为理解的深入研究。该数据集于2025年7月首次提出，核心研究团队包括Yuqi Yang、Weiqi Wang等学者。其创新性在于首次系统性地构建了包含195万条意图条目和113万条会话意图轨迹的大规模数据集，通过引入意图树概念和自动化数据构建流程，解决了传统方法在捕捉跨会话客户意图转移方面的不足。该数据集通过四个精心设计的子任务，全面评估语言模型在复杂会话环境下理解意图演变的能力，为个性化推荐系统和客户行为分析提供了重要研究基础。

当前挑战

SESSIONINTENTBENCH面临的主要挑战体现在两个方面：在领域问题层面，现有模型难以有效捕捉客户在跨会话浏览中动态变化的购买意图，特别是当意图受多模态产品特征（如价格、颜色等属性）共同影响时；在构建过程层面，数据集需要解决会话数据稀疏性、意图标注一致性等难题。具体包括：1)如何从海量会话数据中提取具有判别力的意图特征；2)多模态属性（文本描述与产品图像）的异构信息融合；3)构建自动化标注流程时保持意图轨迹的逻辑连贯性；4)处理会话长度不均衡带来的数据偏差问题。这些挑战使得当前最先进语言模型在该基准上的平均准确率仅为42.34%。

常用场景

经典使用场景

在电子商务领域，SESSIONINTENTBENCH数据集被广泛用于建模和理解用户在浏览会话中的意图转移。通过分析用户在多个产品页面间的交互行为，该数据集能够捕捉用户意图的动态变化，从而为个性化推荐系统提供有力支持。其典型应用场景包括预测用户下一步可能点击的产品、识别用户偏好的变化以及优化推荐策略。

衍生相关工作

SESSIONINTENTBENCH的发布催生了一系列相关研究工作。基于该数据集，研究者们开发了多种意图建模算法，如基于图神经网络的会话推荐系统、多任务学习框架下的意图预测模型等。此外，该数据集还被用于评估大型语言模型在电子商务场景下的表现，推动了意图理解与自然语言处理的交叉研究。一些衍生工作还探索了将意图树与其他知识图谱结合的创新方法，进一步扩展了数据集的应用范围。

数据集最近研究