JDsearch

arXiv2023-05-24 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2305.14810v1

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含真实用户查询和多样化用户-产品交互类型（点击、加入购物车、关注和购买）的个性化产品搜索数据集，数据来源于中国流行的在线购物平台JD.com。

This personalized product search dataset consists of real user queries and diverse user-product interaction types, including clicks, adding to shopping carts, following products, and purchases. The dataset is collected from JD.com, a popular online shopping platform in China.

创建时间：

2023-05-24

搜集汇总

数据集介绍

构建方式

在个性化产品搜索领域，现有数据集多基于模拟生成，难以反映真实用户行为。JDsearch数据集通过从京东平台采集真实用户行为构建，其构建过程始于在特定日期随机抽样约17万活跃用户，随后记录这些用户在一年内的所有交互产品与搜索查询，涵盖点击、加购、关注及购买等多种交互类型。数据集中保留了所有产品类别及用户，未剔除冷门产品或尾部用户，最终形成约1200万产品、940万真实搜索及2600万用户产品交互的记录。为保护隐私，所有敏感信息均经过匿名化处理，并采用留一法划分训练与测试集，为模型评估提供了精细的候选产品列表。

特点

JDsearch数据集的核心特点在于其真实性与完整性。与基于伪查询的亚马逊数据集不同，该数据集收录了用户实际提交的搜索查询，涵盖了品牌、品类、名称及描述等多种查询来源，从而更准确地模拟了真实搜索场景中的模糊性。数据集中产品类别多样，用户历史行为长度分布广泛，既包含热门产品也保留冷门条目，这为研究少样本学习与跨品类用户兴趣建模提供了可能。此外，数据集记录了完整的交互类型与时间戳，支持对用户行为的细粒度分析，增强了其在个性化搜索研究中的实用价值。

使用方法

JDsearch数据集适用于个性化产品搜索模型的训练与评估。研究人员可利用用户历史行为数据，包括查询序列、交互产品及类型，构建用户兴趣模型。在测试阶段，基于用户最后提交的查询及其候选产品列表，模型需对候选产品进行排序，并通过MRR、Precision@1及NDCG等指标评估性能。数据集支持多种模型架构，如基于注意力机制或知识图谱的方法，同时其真实的查询与交互数据有助于探索查询模糊性处理、冷启动问题及跨渠道行为统一建模等前沿方向。

背景与挑战

背景概述

个性化产品搜索作为信息检索领域的重要分支，旨在通过分析用户历史行为数据，为模糊查询提供精准的商品排序。长期以来，该领域的研究严重依赖基于亚马逊平台的模拟数据集，此类数据集采用自动生成的伪查询，并过滤了冷启动用户与长尾商品，导致评估结果与真实用户满意度存在偏差。为应对这一局限，中国人民大学与京东公司的研究团队于2023年联合发布了JDsearch数据集，该数据集采集自中国主流电商平台京东的真实用户行为，包含约170,000名活跃用户、1,200万件商品、940万次真实搜索查询以及2,600万次多维交互记录。其核心价值在于首次大规模整合了真实搜索场景下的完整交互链条，为个性化产品搜索模型的训练与评估提供了高保真的数据基础，显著推动了该领域向实际应用场景的靠拢。

当前挑战

JDsearch数据集所应对的领域挑战，主要聚焦于解决个性化产品搜索中因查询模糊性与用户兴趣多样性导致的排序难题。传统基于关键词匹配的临时排序模型难以处理用户仅输入品牌、品类或产品名称片段等宽泛查询的场景，致使目标商品排名靠后，影响用户体验与平台转化率。在数据集构建过程中，研究团队面临多重挑战：其一，需在保护用户隐私的前提下，对海量敏感信息进行匿名化处理，包括用户标识、查询文本及商品元数据；其二，必须保留完整的交互类型与商品品类分布，避免因过滤冷启动样本而失真，这要求数据处理流程能兼容极端稀疏的长尾行为；其三，真实查询的多样性与标注复杂性远超模拟数据，需设计严谨的划分策略以确保训练与测试集的时间一致性，同时为测试查询提供曝光的候选商品列表以支持细粒度排序评估。

常用场景

经典使用场景

在电子商务信息检索领域，个性化产品搜索旨在通过分析用户历史行为，为模糊查询提供精准的商品排序。JDsearch数据集以其真实的用户查询和完整的交互记录，成为该领域模型评估的经典基准。研究者通常利用该数据集训练和测试各类个性化排序模型，例如基于注意力机制或Transformer架构的神经网络，以模拟真实电商平台中用户从搜索到购买的完整决策过程。数据集涵盖点击、加购、关注和购买等多种交互类型，为模型提供了丰富的用户偏好信号，使得实验结论更具现实指导意义。

解决学术问题

JDsearch数据集有效解决了以往模拟数据集存在的若干学术研究瓶颈。传统Amazon子类数据集采用人工生成的伪查询，且过滤了冷启动用户和长尾商品，导致实验环境与真实场景存在偏差。JDsearch通过引入真实用户查询、保留全量商品与用户、涵盖多品类交互历史，为个性化产品搜索研究提供了更可靠的数据基础。该数据集使得研究者能够深入探索查询模糊性处理、跨品类用户兴趣建模、以及少样本学习等关键问题，推动了信息检索领域向更贴近实际应用的方向发展。

衍生相关工作

围绕JDsearch数据集已衍生出多项聚焦于个性化产品搜索的经典研究工作。这些工作主要集中于改进用户兴趣表示与查询-商品匹配机制，例如基于层次化嵌入的HEM模型、利用知识图谱增强的DREM模型，以及引入注意力机制的AEM和ZAM模型。后续研究进一步探索了Transformer架构在个性化排序中的应用（如TEM模型），以及针对多兴趣建模和冷启动场景的改进方案。这些工作依托数据集提供的真实交互与多类型反馈，持续推动着个性化检索算法在准确性与可解释性方面的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集