five

McAuley-Lab/Amazon-Reviews-2023|电子商务数据集|数据分析数据集

收藏
hugging_face2024-12-08 更新2024-04-19 收录
电子商务
数据分析
下载链接:
https://hf-mirror.com/datasets/McAuley-Lab/Amazon-Reviews-2023
下载链接
链接失效反馈
资源简介:
Amazon Reviews 2023 是一个大规模的数据集,由 McAuley Lab 在 2023 年收集。该数据集包含了丰富的特征,如用户评论(评分、文本、有用性投票等)、商品元数据(描述、价格、原始图片等)以及链接(用户-商品/一起购买图)。与之前的版本相比,该数据集规模更大,包含了 5.7154 亿条评论,涵盖了从 1996 年 5 月到 2023 年 9 月的互动数据。此外,该数据集还提供了更丰富的元数据、更精细的时间戳、更干净的处理以及标准的数据分割,以促进推荐系统的基准测试。数据集按不同类别进行分类,并提供了与之前版本的统计对比以及按类别分组的详细信息。
提供机构:
McAuley-Lab
原始信息汇总

Amazon Reviews 2023 数据集概述

数据集基本信息

  • 名称: Amazon Reviews 2023
  • 语言: 英语
  • 标签: 推荐, 评论
  • 大小: 10B<n<100B

数据集描述

  • 收集时间: 2023年
  • 收集者: McAuley Lab (UCSD)
  • 包含内容:
    1. 用户评论: 评分, 文本, 有用投票等;
    2. 商品元数据: 描述, 价格, 原始图像等;
    3. 链接: 用户-商品 / 一起购买图。

数据集更新

  • 数据量增加: 收集了571.54M评论, 比上一版本大245.2%;
  • 交互时间范围: 从1996年5月到2023年9月;
  • 元数据丰富: 商品元数据中包含更多描述性特征;
  • 时间戳细化: 交互时间戳达到秒级或更细;
  • 处理更干净: 商品元数据比之前版本更干净;
  • 标准分割: 标准数据分割以促进推荐系统基准测试。

数据集统计

  • 总体统计:

    年份 评论数 用户数 商品数 R_Token M_Token 领域数 时间范围
    2023 571.54M 54.51M 48.19M 30.14B 30.78B 33 1996-05至2023-09
  • 按类别统计:

    类别 用户数 商品数 评分数 R_Token M_Token 下载链接
    All_Beauty 632.0K 112.6K 701.5K 31.6M 74.1M 评论, 元数据
    Amazon_Fashion 2.0M 825.9K 2.5M 94.9M 510.5M 评论, 元数据
    ... ... ... ... ... ... ...
    Unknown 23.1M 13.2M 63.8M 3.3B 232.8M 评论, 元数据

数据集字段

  • 用户评论字段:

    字段 类型 说明
    rating float 产品评分(1.0至5.0)
    title str 用户评论标题
    text str 用户评论文本
    ... ... ...
  • 商品元数据字段:

    字段 类型 说明
    main_category str 商品主类别
    title str 商品名称
    ... ... ...

联系方式

  • 报告错误: 通过GitHub提交问题。
  • 其他: 通过电子邮件 yphou AT ucsd.edu 联系。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由McAuley Lab于2023年精心构建,涵盖了亚马逊平台上多个类别的商品评论。数据集的构建过程包括从亚马逊平台收集用户评论、商品元数据以及用户与商品之间的交互信息。每个类别的数据均经过细致的清洗和标准化处理,确保数据的完整性和一致性。此外,数据集还提供了详细的商品属性描述、价格信息、图像链接以及视频链接等多维度信息,以支持更丰富的分析和建模需求。
特点
该数据集的显著特点在于其规模庞大且内容丰富。数据集包含了571.54M条评论,覆盖了33个不同的商品类别,提供了从1996年5月至2023年9月的用户交互数据。每个评论条目不仅包含用户评分和文本内容,还附带了商品的详细描述、价格、图像和视频等多媒体信息。此外,数据集还提供了细粒度的时间戳,支持时间序列分析。这些特点使得该数据集成为推荐系统和用户行为分析的理想选择。
使用方法
该数据集适用于多种研究场景,包括但不限于推荐系统、用户行为分析、情感分析和市场趋势预测。用户可以通过HuggingFace平台直接下载数据集,并根据需要选择不同的类别进行分析。数据集提供了标准的数据分割,便于进行模型训练和测试。此外,用户还可以利用数据集中的丰富元数据,结合图像和视频信息,进行多模态学习。为了更好地利用该数据集,建议用户参考提供的加载脚本和预处理工具,以确保数据处理的效率和准确性。
背景与挑战
背景概述
亚马逊评论数据集(Amazon Reviews 2023)由McAuley实验室于2023年发布,旨在为推荐系统和用户行为分析提供丰富的数据支持。该数据集包含了从1996年5月至2023年9月的海量用户评论,涵盖了多个商品类别,如电子产品、书籍、美容产品等。数据集不仅包括用户评论的文本和评分,还提供了商品的详细元数据,如价格、描述、图片和视频链接等。通过这些数据,研究人员可以深入探索用户与商品之间的交互模式,推动推荐系统、自然语言处理和用户行为分析等领域的发展。
当前挑战
亚马逊评论数据集的构建面临多重挑战。首先,数据规模庞大,处理和存储如此海量的评论和元数据需要高效的计算资源和存储解决方案。其次,数据质量的保证是一个重要问题,如何过滤掉虚假评论、处理缺失数据以及确保数据的准确性是构建过程中的关键挑战。此外,随着时间的推移,用户评论的语义和表达方式也在不断变化,如何有效捕捉这些变化并应用于模型训练是另一个重要挑战。最后,数据集的多样性和复杂性要求研究人员开发更加精细的算法来处理不同类型的数据,以提升推荐系统的准确性和用户体验。
常用场景
经典使用场景
Amazon-Reviews-2023数据集的经典使用场景主要集中在推荐系统和用户行为分析领域。通过分析用户评论、评分以及购买行为,研究者可以构建个性化的推荐模型,提升用户体验。此外,该数据集还可用于情感分析,通过挖掘用户评论中的情感倾向,帮助企业优化产品和服务。
衍生相关工作
基于Amazon-Reviews-2023数据集,研究者们开发了多种推荐算法和情感分析模型,推动了推荐系统和自然语言处理领域的发展。例如,基于该数据集的深度学习推荐模型在多个基准测试中表现优异,成为学术界和工业界广泛采用的技术。此外,该数据集还激发了关于用户行为模式和市场动态的深入研究,产生了大量相关论文和应用案例。
数据集最近研究
最新研究方向
在推荐系统领域,Amazon-Reviews-2023数据集的最新研究方向主要集中在利用大规模用户评论和商品元数据进行个性化推荐模型的优化。研究者们致力于通过深度学习技术,特别是自然语言处理(NLP)和图神经网络(GNN),来提升推荐系统的准确性和用户满意度。此外,随着大语言模型(LLMs)的兴起,研究者们也在探索如何将这些模型应用于用户评论的情感分析和商品描述的生成,以进一步增强推荐系统的智能化水平。这些研究不仅推动了推荐系统技术的进步,也为电商平台的用户体验优化提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录