five

smartcat/Amazon_Sports_and_Outdoors_2018

收藏
Hugging Face2024-12-24 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/smartcat/Amazon_Sports_and_Outdoors_2018
下载链接
链接失效反馈
官方服务:
资源简介:
Amazon Sports & Outdoors数据集包含两个主要部分:metadata和reviews。metadata部分包含产品信息,如asin、title、description、brand、main_cat、category等字段。reviews部分包含用户对产品的评论信息,如reviewerID、reviewerName、overall、reviewTime、asin、reviewText、summary等字段。此外,还提供了一个filtered目录,其中包含经过过滤的评论数据和嵌入向量数据。

The Amazon Sports & Outdoors dataset consists of two main parts: metadata and reviews. The metadata section contains product information such as asin, title, description, brand, main_cat, category, etc. The reviews section contains user reviews about the products, including fields like reviewerID, reviewerName, overall, reviewTime, asin, reviewText, summary, etc. Additionally, there is a filtered directory that contains filtered review data and embedding vectors.
提供机构:
smartcat
搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务与推荐系统研究领域,大规模用户行为数据的积累对算法模型的发展至关重要。Amazon Sports and Outdoors 2018数据集源自亚马逊平台2018年体育与户外用品类目的真实交易与交互记录。其构建过程系统性地采集了商品元数据与用户评论两大核心模块,元数据部分整合了商品标识、标题、描述、品牌及多层级分类信息,并关联了协同过滤中常见的“同时购买”与“同时浏览”商品序列,以及商品图像资源链接。用户评论模块则详尽收录了评论文本、摘要、评分及时间戳,并与商品进行精确关联。此外,数据集还提供了经过预处理的过滤版本,其中嵌入了由e5-base-v2模型生成的文本向量表示,并对评论进行了基于评分和数量的筛选,为后续研究提供了多模态与高质量的数据基础。
使用方法
为便利研究社区的使用,该数据集在HuggingFace平台提供了标准化的加载接口。研究者可根据具体任务需求,灵活调用不同配置的数据子集。通过指定`name`参数为“metadata”或“reviews”,即可分别加载完整的商品元数据或用户评论数据。对于需要直接使用预处理后数据的研究,可通过`data_files`参数指向“filtered”目录下的特定文件,例如加载包含五颗星评分过滤后的评论数据或预生成的文本嵌入。这种模块化的访问方式,使得数据集能够广泛应用于商品表征学习、个性化推荐、用户评论分析以及多模态信息检索等多个前沿研究方向。
背景与挑战
背景概述
Amazon Sports and Outdoors 2018数据集由Julian McAuley及其研究团队于2018年构建,隶属于亚马逊产品评论数据系列,专注于体育与户外用品领域。该数据集旨在探索电子商务环境下的推荐系统与信息检索问题,通过整合商品元数据与用户评论,为多模态学习与个性化推荐研究提供丰富资源。其构建延续了先前亚马逊评论数据集的研究脉络,显著推动了商品表征学习、跨模态检索及可解释推荐等方向的发展,成为该领域广泛引用的基准数据之一。
当前挑战
该数据集致力于解决电子商务中商品推荐与检索的挑战,其核心问题在于如何从异构信息(如文本、图像、用户行为)中学习有效的商品表征,以提升推荐准确性与可解释性。在构建过程中,面临数据稀疏性、噪声过滤以及多模态对齐等难题,例如用户评论的语义多样性、商品图像的质量参差,以及元数据中品牌、类别的标注一致性。此外,如何从海量交互数据中提取有意义的协同信号,并平衡数据规模与计算效率,亦是构建时需克服的关键挑战。
常用场景
经典使用场景
在电子商务与信息检索领域,Amazon Sports and Outdoors 2018数据集常被用于构建和评估推荐系统模型。该数据集整合了丰富的产品元数据与用户评论,为研究者提供了多模态信息融合的典型场景。通过分析用户购买历史、产品关联及文本评论,模型能够学习用户偏好与物品特征之间的复杂映射关系,进而实现精准的商品推荐。这一场景不仅涵盖了协同过滤与内容过滤的经典范式,还为基于深度学习的序列推荐和跨模态检索提供了实验基础。
解决学术问题
该数据集有效解决了推荐系统中冷启动、稀疏性及可解释性等核心学术问题。通过提供详细的产品描述、品牌信息和多层级分类,它助力模型缓解新物品或新用户数据不足的困境。同时,丰富的评论文本为理解用户偏好提供了语义依据,使推荐理由更具解释性。在跨模态学习方面,结合图像与文本数据,推动了多模态表征对齐的研究,为提升推荐系统的鲁棒性和用户满意度奠定了数据基础。
实际应用
在实际应用中,该数据集支撑了电商平台个性化推荐引擎的优化。企业可依据用户历史行为与产品关联数据,构建实时推荐系统,提升体育与户外用品领域的销售转化率。此外,基于评论情感分析与产品特征提取,平台能够识别热门趋势与用户需求,辅助库存管理和营销策略制定。在客户服务方面,通过分析评论中的反馈,企业可及时改进产品质量,增强用户忠诚度,实现商业价值的最大化。
数据集最近研究
最新研究方向
在电子商务与自然语言处理交叉领域,Amazon Sports and Outdoors 2018数据集凭借其丰富的产品元数据和用户评论,正驱动着多模态推荐系统的前沿探索。当前研究聚焦于利用预训练语言模型如E5-base-v2生成文本与商品嵌入,旨在实现语言与物品之间的语义对齐,从而提升跨模态检索的精准度。这一方向呼应了生成式人工智能在个性化推荐中的热点应用,通过融合视觉、文本与交互数据,系统能够更细腻地捕捉用户偏好与商品特性。其影响不仅限于体育户外品类,更为构建通用、可扩展的推荐框架提供了实证基础,推动了信息检索与个性化服务技术的协同演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作