five

COOKIE

收藏
arXiv2020-08-21 更新2024-06-21 收录
下载链接:
https://github.com/zuohuif/COOKIE
下载链接
链接失效反馈
官方服务:
资源简介:
COOKIE数据集是由罗格斯大学和HPI/波茨坦大学的研究团队开发的,专门用于电子商务平台中的对话推荐系统。该数据集通过整合用户与代理之间的对话以及定制的知识图谱来构建,旨在模拟用户从粗到细选择商品的过程。数据集包含超过200万条对话,覆盖多个电子商务领域,如手机配件、食品杂货、玩具和汽车等。创建过程中,研究团队首先构建了一个统一的知识图谱,然后提取关键实体以形成对话骨架,最后通过模拟对话过程来合成数据集。COOKIE数据集的应用领域主要集中在提升对话推荐系统的性能,通过丰富的知识图谱支持,帮助用户更有效地找到最适合的商品。

The COOKIE Dataset was developed by research teams from Rutgers University and HPI/University of Potsdam, specifically tailored for conversational recommendation systems in e-commerce platforms. This dataset is constructed by integrating conversations between users and agents along with a customized knowledge graph, aiming to simulate the process of users selecting products from coarse-grained to fine-grained levels. The dataset contains over 2 million conversations, covering multiple e-commerce sectors such as mobile phone accessories, groceries, toys, automobiles and more. During its creation, the research team first built a unified knowledge graph, then extracted key entities to form the conversation skeleton, and finally synthesized the dataset by simulating the conversation process. The main application scenarios of the COOKIE Dataset focus on improving the performance of conversational recommendation systems, leveraging the rich knowledge graph support to help users more effectively find the most suitable products.
提供机构:
罗格斯大学, 新泽西州, 美国 ‡HPI/波茨坦大学, 德国
创建时间:
2020-08-21
搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务领域,为模拟真实用户与智能代理的交互过程,COOKIE数据集的构建遵循了系统化的知识图谱融合策略。该数据集源自亚马逊评论语料库,通过整合用户-代理对话与定制化知识图谱,构建了统一的图结构以支撑推荐任务。具体而言,首先从用户-产品对中提取关键实体,形成对话的骨架;随后,依据人类从粗到细的决策模式,模拟对话流程,确保每个对话回合均基于知识图谱中的实体路径展开。最终,通过人工验证的模板将实体转化为自然语言问题,生成包含多轮问答的对话数据,覆盖手机配件、食品杂货等多个电子商务子领域。
特点
COOKIE数据集的核心特点在于其深度融合了知识图谱与对话推荐机制,为电子商务场景下的个性化交互提供了丰富语义基础。数据集不仅包含用户历史行为与产品元数据,还通过图结构显式建模用户偏好与产品属性间的关联,增强了推荐的可解释性。对话设计采用由粗到细的渐进式问答模式,模拟真实购物决策过程,同时以二值化回答简化用户反馈,兼顾了数据可靠性与任务复杂性。此外,数据集涵盖四个独立领域,每个领域均具备大规模实体、关系与对话轮次,为模型训练与评估提供了多样化场景。
使用方法
COOKIE数据集适用于知识图谱增强的对话推荐系统研究,主要支持下一问题预测与个性化推荐两项任务。使用时,模型需基于给定对话历史与候选集合,预测下一轮代理问题、对应知识实体及最终推荐物品。研究人员可借助数据集提供的训练、验证与测试划分,评估模型在检索式对话生成与图谱推理方面的性能。基线方法如KBRD与OpenDialKG已展示了知识融合的有效性,后续工作可进一步探索图谱结构与语义特征的协同优化,以提升对话的流畅性与推荐精准度。
背景与挑战
背景概述
在电子商务领域,随着对话系统的快速发展,用户在面对海量商品信息时往往感到困惑,难以精准定位自身需求。为此,罗格斯大学与波茨坦大学的研究团队于2020年推出了COOKIE数据集,旨在探索基于知识图谱的对话式推荐系统。该数据集通过整合亚马逊评论语料中的用户-商品交互数据与结构化知识图谱,模拟人类从粗到细的决策过程,构建了涵盖手机配件、食品杂货等多个领域的对话序列。COOKIE不仅为个性化推荐提供了丰富的语义基础,还通过知识图谱的引入增强了推荐结果的可解释性,推动了对话推荐系统在真实电商场景中的应用研究。
当前挑战
COOKIE数据集致力于解决对话式推荐中的核心挑战,即如何通过多轮交互动态捕捉用户偏好,并基于知识图谱实现精准且可解释的商品推荐。这一领域问题的难点在于平衡对话的自然性与推荐的效率,同时需处理用户意图的模糊性与商品属性的复杂性。在构建过程中,研究团队面临多重挑战:首先,从非结构化的用户评论中提取关键实体并构建统一知识图谱,需确保实体关系的准确性与覆盖度;其次,模拟符合人类决策逻辑的对话序列,要求设计合理的粗到细实体排序机制与模板化问答生成策略,以保障对话的连贯性与真实性;此外,数据集的构建还需兼顾个性化与目标导向性,避免生成冗长或偏离主题的对话内容。
常用场景
经典使用场景
在电子商务领域,对话式推荐系统正逐渐成为提升用户体验的关键技术。COOKIE数据集通过整合知识图谱与用户-代理对话,为研究者提供了一个模拟真实购物场景的基准平台。其经典使用场景在于训练和评估能够理解用户偏好、进行多轮交互的智能推荐模型。数据集中的对话遵循从粗到细的决策过程,系统通过逐步询问用户对产品属性(如品牌、类别、健康属性)的偏好,最终生成个性化推荐。这种结构化的对话流程不仅模拟了人类购物时的自然思考模式,还为模型提供了清晰的推理路径,使得推荐过程更具解释性和可信度。
解决学术问题
COOKIE数据集主要解决了对话式推荐系统中知识融合与个性化推荐的学术难题。传统推荐系统往往忽视用户动态反馈与产品知识的结构化整合,导致推荐结果缺乏透明度和适应性。该数据集通过构建统一的知识图谱,将用户历史行为、产品元数据及对话上下文融为一体,使得模型能够基于图谱路径进行可解释的推理。这有助于克服推荐系统中的冷启动问题,并提升对用户隐式偏好的捕捉能力。此外,数据集支持下一问题预测任务,推动了对对话状态跟踪与语义理解相结合的研究,为开发更智能、更自然的交互式推荐系统奠定了数据基础。
衍生相关工作
COOKIE数据集的推出催生了一系列围绕知识增强对话推荐的经典研究工作。例如,基于该数据集的基线模型KBRD(Knowledge-Based Recommender Dialog)和OpenDialKG的适配版本,探索了如何利用知识图谱结构提升推荐准确性与对话连贯性。这些工作进一步推动了图注意力网络(如KGAT)在对话系统中的集成,实现了对用户-产品复杂关系的高效建模。同时,数据集激励了多任务学习框架的发展,将下一问题预测与推荐任务相结合,以模拟更自然的交互流程。后续研究还扩展至情感分析与多样化响应生成,使对话系统能够处理更丰富的用户语义,持续深化了 conversational recommendation 领域的技术前沿。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作