Amazon-Product-Search-Datasets

github2024-02-21 更新2024-05-31 收录

下载链接：

https://github.com/QingyaoAi/Amazon-Product-Search-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于个性化产品搜索的基准数据集，构建于Amazon评论数据之上。数据集中每个用户和每个商品至少有5条相关评论。用户在购买商品后才能为其撰写评论，因此购买用户-商品对是根据用户评论直接提取的。个性化产品搜索的目标是找到既与查询相关又由用户购买的商品。

This is a benchmark dataset for personalized product search, constructed based on Amazon review data. Each user and each product in the dataset has at least 5 relevant reviews. Users can only write reviews for products after purchasing them, so the user-product pairs are directly extracted from user reviews. The goal of personalized product search is to find products that are both relevant to the query and have been purchased by the user.

创建时间：

2018-03-16

原始信息汇总

数据集概述

本数据集是一个个性化产品搜索的基准数据集，基于McAuley等人提供的5-core亚马逊评论数据构建，确保每个用户和每个商品至少有5条相关评论。数据集通过用户购买后撰写的评论提取用户-商品对，旨在找到与查询相关且已被用户购买的商品。

查询提取

查询的提取遵循Gysel等人的方法，通过商品元数据提取类别信息，并从单个类别层次中连接术语形成主题字符串。去除停用词和重复词，忽略仅有一级层次的类别，并从类别层次中顺序移除重复词。用户-查询对通过将用户-商品对与商品的查询关联来构建。

数据分区

数据集被分为训练集和测试集：

30%的用户评论被随机隐藏，用于测试集中的购买行为表示。
30%的查询被随机选为初始测试查询集，若训练商品的所有查询都在测试集中，则随机选择一个查询放回训练查询集。
所有测试查询与用户匹配，形成最终的测试数据。

文件格式

数据集包含以下文件：

query_text.txt.gz: 包含所有训练和测试使用的查询，每行代表一个查询字符串。
train.qrels.gz: 训练数据的相关性判断，格式为 <reviewerID>_<query_line_number> 0 <asin> <relevance_label>。
train_review_id.txt.gz: 包含原始5-core亚马逊评论数据中相应评论的行号。
test.qrels.gz: 测试数据的相关性判断，格式与训练数据相同。

搜集汇总

数据集介绍

构建方式

Amazon-Product-Search-Datasets的构建基于McAuley等人提供的Amazon评论数据集5-core数据，确保每个用户和每个商品至少有5条相关评论。通过用户评论直接提取购买行为，形成用户-商品对。搜索查询的提取则遵循Gysel等人的方法，从商品元数据中提取类别信息，去除停用词和重复词，形成主题字符串。数据集进一步划分为训练集和测试集，其中30%的评论和查询被随机隐藏用于测试。

特点

该数据集的特点在于其专注于个性化商品搜索，通过用户购买行为和商品类别信息构建用户-查询对。每个用户-查询对都关联了用户购买的商品，确保了数据的相关性和实用性。数据集的结构清晰，包含查询文本、训练和测试的相关性判断文件，以及原始评论数据的行号信息，便于研究者进行深入分析和模型训练。

使用方法

使用该数据集时，研究者首先需要解压并读取query_text.txt.gz文件中的查询文本。接着，通过train.qrels.gz和test.qrels.gz文件获取训练和测试数据的相关性判断，其中包含用户ID、查询行号、商品ID和相关性标签。train_review_id.txt.gz文件则提供了原始评论数据的行号，便于进一步的数据验证和分析。通过这些文件，研究者可以构建和评估个性化商品搜索模型，提升搜索系统的准确性和用户体验。

背景与挑战

背景概述

Amazon-Product-Search-Datasets 是一个用于个性化产品搜索的基准数据集，由 Qingyao Ai 等人于 2017 年在 SIGIR 会议上首次提出。该数据集基于 McAuley 等人提供的 Amazon 评论数据构建，旨在解决个性化产品搜索中的核心问题，即如何根据用户的查询历史和个人偏好推荐相关产品。通过引入层次化嵌入模型，该数据集为研究个性化搜索算法提供了重要的实验平台，推动了电子商务领域推荐系统的发展。其影响力不仅体现在学术研究中，还为实际应用中的产品推荐提供了理论支持。

当前挑战

Amazon-Product-Search-Datasets 在解决个性化产品搜索问题时面临多重挑战。首先，个性化搜索需要准确捕捉用户的偏好和查询意图，这对数据质量和模型设计提出了高要求。其次，数据构建过程中，从海量评论中提取有效的用户-商品对和查询信息，涉及复杂的预处理和过滤步骤，确保数据的代表性和一致性。此外，数据分割和测试集的构建需要避免信息泄露，同时保证测试结果的可靠性。这些挑战不仅考验了数据集的构建方法，也为后续研究提供了改进方向。

常用场景

经典使用场景

Amazon-Product-Search-Datasets作为个性化产品搜索的基准数据集，广泛应用于电子商务领域的推荐系统研究中。通过该数据集，研究者能够模拟用户在亚马逊平台上的搜索行为，构建用户-查询-产品的三元关系，进而优化个性化推荐算法。数据集中的用户购买记录和产品类别信息为模型训练提供了丰富的上下文信息，使得推荐系统能够更精准地预测用户需求。

实际应用

在实际应用中，Amazon-Product-Search-Datasets被广泛用于电子商务平台的个性化推荐系统开发。通过分析用户的搜索和购买行为，平台能够为用户提供更精准的产品推荐，从而提高用户满意度和购买转化率。此外，该数据集还可用于广告投放优化，帮助商家更有效地定位目标用户群体，提升营销效果。

衍生相关工作

基于Amazon-Product-Search-Datasets，研究者们开发了多种经典的个性化推荐模型和算法。例如，Qingyao Ai等人提出的层次嵌入模型（Hierarchical Embedding Model）通过结合用户行为和产品类别信息，显著提升了推荐系统的性能。此外，McAuley等人的工作也为该数据集的应用提供了理论基础，推动了电子商务推荐系统领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集