five

McAuley-Lab/Amazon-Reviews-2023

收藏
Hugging Face2024-12-08 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/McAuley-Lab/Amazon-Reviews-2023
下载链接
链接失效反馈
资源简介:
Amazon Reviews 2023 是一个大规模的数据集,由 McAuley Lab 在 2023 年收集。该数据集包含了丰富的特征,如用户评论(评分、文本、有用性投票等)、商品元数据(描述、价格、原始图片等)以及链接(用户-商品/一起购买图)。与之前的版本相比,该数据集规模更大,包含了 5.7154 亿条评论,涵盖了从 1996 年 5 月到 2023 年 9 月的互动数据。此外,该数据集还提供了更丰富的元数据、更精细的时间戳、更干净的处理以及标准的数据分割,以促进推荐系统的基准测试。数据集按不同类别进行分类,并提供了与之前版本的统计对比以及按类别分组的详细信息。

Amazon Reviews 2023 is a large-scale dataset collected by the McAuley Lab in 2023. It encompasses a rich set of features, including user review-related data (such as star ratings, review texts, helpfulness votes, etc.), product metadata (descriptions, prices, original product images, etc.), and relational structures (user-item interaction pairs and co-purchase graphs). Compared with previous versions, this dataset has a larger scale, containing 571.54 million review entries covering interactive data from May 1996 to September 2023. Furthermore, it provides more comprehensive metadata, finer-grained timestamps, cleaner preprocessing workflows, and standardized data splits to facilitate benchmark testing of recommendation systems. The dataset is categorized by distinct product categories, and also offers statistical comparisons with prior versions as well as detailed category-grouped information.
提供机构:
McAuley-Lab
原始信息汇总

Amazon Reviews 2023 数据集概述

数据集基本信息

  • 名称: Amazon Reviews 2023
  • 语言: 英语
  • 标签: 推荐, 评论
  • 大小: 10B<n<100B

数据集描述

  • 收集时间: 2023年
  • 收集者: McAuley Lab (UCSD)
  • 包含内容:
    1. 用户评论: 评分, 文本, 有用投票等;
    2. 商品元数据: 描述, 价格, 原始图像等;
    3. 链接: 用户-商品 / 一起购买图。

数据集更新

  • 数据量增加: 收集了571.54M评论, 比上一版本大245.2%;
  • 交互时间范围: 从1996年5月到2023年9月;
  • 元数据丰富: 商品元数据中包含更多描述性特征;
  • 时间戳细化: 交互时间戳达到秒级或更细;
  • 处理更干净: 商品元数据比之前版本更干净;
  • 标准分割: 标准数据分割以促进推荐系统基准测试。

数据集统计

  • 总体统计:

    年份 评论数 用户数 商品数 R_Token M_Token 领域数 时间范围
    2023 571.54M 54.51M 48.19M 30.14B 30.78B 33 1996-05至2023-09
  • 按类别统计:

    类别 用户数 商品数 评分数 R_Token M_Token 下载链接
    All_Beauty 632.0K 112.6K 701.5K 31.6M 74.1M 评论, 元数据
    Amazon_Fashion 2.0M 825.9K 2.5M 94.9M 510.5M 评论, 元数据
    ... ... ... ... ... ... ...
    Unknown 23.1M 13.2M 63.8M 3.3B 232.8M 评论, 元数据

数据集字段

  • 用户评论字段:

    字段 类型 说明
    rating float 产品评分(1.0至5.0)
    title str 用户评论标题
    text str 用户评论文本
    ... ... ...
  • 商品元数据字段:

    字段 类型 说明
    main_category str 商品主类别
    title str 商品名称
    ... ... ...

联系方式

  • 报告错误: 通过GitHub提交问题。
  • 其他: 通过电子邮件 yphou AT ucsd.edu 联系。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由McAuley Lab于2023年精心构建,涵盖了亚马逊平台上多个类别的商品评论。数据集的构建过程包括从亚马逊平台收集用户评论、商品元数据以及用户与商品之间的交互信息。每个类别的数据均经过细致的清洗和标准化处理,确保数据的完整性和一致性。此外,数据集还提供了详细的商品属性描述、价格信息、图像链接以及视频链接等多维度信息,以支持更丰富的分析和建模需求。
特点
该数据集的显著特点在于其规模庞大且内容丰富。数据集包含了571.54M条评论,覆盖了33个不同的商品类别,提供了从1996年5月至2023年9月的用户交互数据。每个评论条目不仅包含用户评分和文本内容,还附带了商品的详细描述、价格、图像和视频等多媒体信息。此外,数据集还提供了细粒度的时间戳,支持时间序列分析。这些特点使得该数据集成为推荐系统和用户行为分析的理想选择。
使用方法
该数据集适用于多种研究场景,包括但不限于推荐系统、用户行为分析、情感分析和市场趋势预测。用户可以通过HuggingFace平台直接下载数据集,并根据需要选择不同的类别进行分析。数据集提供了标准的数据分割,便于进行模型训练和测试。此外,用户还可以利用数据集中的丰富元数据,结合图像和视频信息,进行多模态学习。为了更好地利用该数据集,建议用户参考提供的加载脚本和预处理工具,以确保数据处理的效率和准确性。
背景与挑战
背景概述
亚马逊评论数据集(Amazon Reviews 2023)由McAuley实验室于2023年发布,旨在为推荐系统和用户行为分析提供丰富的数据支持。该数据集包含了从1996年5月至2023年9月的海量用户评论,涵盖了多个商品类别,如电子产品、书籍、美容产品等。数据集不仅包括用户评论的文本和评分,还提供了商品的详细元数据,如价格、描述、图片和视频链接等。通过这些数据,研究人员可以深入探索用户与商品之间的交互模式,推动推荐系统、自然语言处理和用户行为分析等领域的发展。
当前挑战
亚马逊评论数据集的构建面临多重挑战。首先,数据规模庞大,处理和存储如此海量的评论和元数据需要高效的计算资源和存储解决方案。其次,数据质量的保证是一个重要问题,如何过滤掉虚假评论、处理缺失数据以及确保数据的准确性是构建过程中的关键挑战。此外,随着时间的推移,用户评论的语义和表达方式也在不断变化,如何有效捕捉这些变化并应用于模型训练是另一个重要挑战。最后,数据集的多样性和复杂性要求研究人员开发更加精细的算法来处理不同类型的数据,以提升推荐系统的准确性和用户体验。
常用场景
经典使用场景
Amazon-Reviews-2023数据集的经典使用场景主要集中在推荐系统和用户行为分析领域。通过分析用户评论、评分以及购买行为,研究者可以构建个性化的推荐模型,提升用户体验。此外,该数据集还可用于情感分析,通过挖掘用户评论中的情感倾向,帮助企业优化产品和服务。
衍生相关工作
基于Amazon-Reviews-2023数据集,研究者们开发了多种推荐算法和情感分析模型,推动了推荐系统和自然语言处理领域的发展。例如,基于该数据集的深度学习推荐模型在多个基准测试中表现优异,成为学术界和工业界广泛采用的技术。此外,该数据集还激发了关于用户行为模式和市场动态的深入研究,产生了大量相关论文和应用案例。
数据集最近研究
最新研究方向
在推荐系统领域,Amazon-Reviews-2023数据集的最新研究方向主要集中在利用大规模用户评论和商品元数据进行个性化推荐模型的优化。研究者们致力于通过深度学习技术,特别是自然语言处理(NLP)和图神经网络(GNN),来提升推荐系统的准确性和用户满意度。此外,随着大语言模型(LLMs)的兴起,研究者们也在探索如何将这些模型应用于用户评论的情感分析和商品描述的生成,以进一步增强推荐系统的智能化水平。这些研究不仅推动了推荐系统技术的进步,也为电商平台的用户体验优化提供了新的思路和方法。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作