Shopping Queries Dataset

Name: Shopping Queries Dataset
Creator: 亚马逊，美国
Published: 2022-06-14 12:25:26
License: 暂无描述

arXiv2022-06-14 更新2024-06-21 收录

下载链接：

https://github.com/amazon-research/esci-code

下载链接

链接失效反馈

官方服务：

资源简介：

Shopping Queries Dataset是由亚马逊美国团队创建的一个大型多语言数据集，旨在通过提供困难搜索查询和结果来促进产品搜索质量的研究。该数据集包含约13万条独特的查询和260万条手动标记的（查询，产品）相关性判断，涵盖英语、日语和西班牙语。数据集的创建过程涉及多种策略来选择具有挑战性的查询，并通过人工标注来确定查询与产品的相关性。该数据集主要用于产品搜索领域的研究，旨在通过提高搜索结果的相关性来改善用户体验。

The Shopping Queries Dataset is a large-scale multilingual dataset developed by the Amazon US team, designed to facilitate research on product search quality by providing challenging search queries and their corresponding results. This dataset includes approximately 130,000 unique queries and 2.6 million manually labeled (query, product) relevance judgments, covering English, Japanese, and Spanish. The dataset construction process adopts multiple strategies to select challenging queries, and uses manual annotation to confirm the relevance between queries and products. This dataset is primarily used for research in the product search domain, with the goal of improving user experience by enhancing the relevance of search results.

提供机构：

亚马逊，美国

创建时间：

2022-06-14

搜集汇总

数据集介绍

构建方式

在电子商务搜索领域，构建高质量的数据集对于提升语义匹配算法的性能至关重要。Shopping Queries Dataset的构建过程始于从亚马逊真实用户搜索日志中精心筛选具有挑战性的查询，这些查询并非随机采样，而是通过行为统计、否定表达、解析模式及价格分布等多种策略，从多个基线模型错误率较高的查询中抽取，以确保数据集的复杂性和研究价值。随后，每个查询与产品的配对均由经过培训的人工标注员根据ESCI四类标签体系进行手动标注，每个配对至少收集三个独立标注，并通过多数投票机制确定最终标签，同时辅以产品标题、描述等丰富的元数据信息，最终形成了涵盖英语、日语和西班牙语的多语言大规模数据集。

使用方法

该数据集主要支持三项核心任务，旨在推动产品搜索算法的前沿研究。第一项任务是查询-产品排序，要求模型根据查询对产品列表进行排序，使得相关产品位居前列，并使用归一化折损累计增益指标进行评估。第二项任务是多类别产品分类，旨在将每个查询-产品对精确分类为ESCI四类之一，通过微平均F1分数衡量分类性能。第三项任务是产品替代品识别，专注于从结果中识别出替代产品，视为二分类问题并以F1分数评价。研究人员可利用数据集提供的训练、公开测试和私有测试划分，开发并优化排序与分类模型，基线方法已公开，为后续研究提供了坚实的起点。

背景与挑战

背景概述

在电子商务蓬勃发展的时代背景下，提升产品搜索质量成为优化用户体验与增强平台参与度的关键。由亚马逊研究团队于2022年发布的Shopping Queries Dataset，旨在应对语义匹配的长期挑战，构建了一个大规模、多语言的基准数据集。该数据集聚焦于解决复杂查询场景下的产品相关性判别问题，涵盖了约13万条独特查询与260余万条人工标注的查询-产品对，并引入了精细的ESCI四分类体系，以超越传统二元相关性的局限。作为KDDCup'22竞赛的核心组成部分，该数据集为信息检索与机器学习社区提供了推动产品搜索算法创新的重要资源，预期将成为该领域的黄金标准。

当前挑战

该数据集致力于解决电子商务产品搜索中语义匹配的核心挑战，其难点在于准确解析用户查询意图，并在商品多样性及信息噪声的背景下，实现产品与查询间的细粒度相关性分类。构建过程中的挑战同样显著：首先，为确保数据集的科研价值，需从海量查询中筛选具有代表性的困难样本，这涉及设计复杂的采样策略以覆盖行为异常、否定表达及属性解析等复杂场景；其次，人工标注ESCI四类标签面临主观性干扰，尤其在区分替代品与无关商品时存在标注一致性难题，尽管团队通过多数投票机制聚合标注，但细微的语义差异仍可能引入噪声。此外，数据集的多语言特性要求协调不同语种的标注质量与分布平衡，进一步增加了构建的复杂性。

常用场景

经典使用场景

在电子商务信息检索领域，Shopping Queries Dataset 作为一项大规模多语言基准数据集，其经典应用场景聚焦于提升产品搜索的语义匹配精度。该数据集通过精心筛选的复杂查询与人工标注的ESCI标签，为研究人员构建和评估排序模型提供了丰富资源。具体而言，它支持查询-产品排序、多类别产品分类以及替代产品识别三大核心任务，这些任务直接模拟了真实电商环境中用户意图解析与结果优化的完整流程。

解决学术问题

该数据集有效应对了产品搜索中语义理解的长期挑战，突破了传统二元相关度评估的局限。通过引入精确、替代、互补和无关的四级ESCI标签体系，它使得模型能够更细腻地捕捉用户查询意图与产品功能之间的复杂关系。这不仅促进了多语言环境下检索算法的发展，还为解决查询歧义、属性解析及否定表达等难题提供了标准化评估框架，显著推动了电子商务信息检索领域的理论进步与方法创新。

实际应用

在实际电商平台运营中，Shopping Queries Dataset 的应用直接转化为搜索体验的优化。基于该数据集训练的模型能够更准确地识别用户潜在需求，例如将查询“iPhone”关联至充电器等互补商品，或为“无坚果能量棒”等否定性查询提供精准过滤。这种能力不仅提升了搜索结果的相关性与多样性，还通过推荐替代品增强了交叉销售机会，最终驱动用户参与度与购买转化率的增长，为全球多语言电商平台的搜索系统提供了可落地的解决方案。

数据集最近研究