2023 Amazon Reviews Dataset
收藏github2024-06-04 更新2024-06-17 收录
下载链接:
https://github.com/Daphne210/Data-Mining-Project
下载链接
链接失效反馈官方服务:
资源简介:
本项目使用了2023年亚马逊评论数据集,由于原始数据集大小超过150GB,我们选择了14个类别进行合并,这些类别的压缩文件大小小于1GB,总大小小于3GB。合并后的数据集包含30,594,036条记录,约15GB。合并的类别包括:全美容、家电、健康与个人护理、工业与科学、亚马逊时尚、婴儿产品、订阅盒、手工制品、数字音乐、软件、乐器、杂志订阅、视频游戏和礼品卡。
本项研究采纳了2023年度亚马逊用户评论数据集,鉴于原始数据集规模庞大,逾150吉字节,故精选14个类别予以整合。经压缩后,这14个类别的数据总量不足1吉字节,整体数据集容量亦未超过3吉字节。整合后的数据集共计记录3,059,040,36条,容量约为15吉字节。整合范畴涵盖:全方位美容、家用电器、健康与个人护理、工业科学与技术、亚马逊时尚产品、婴儿用品、订阅服务、手工制品、数字音乐、软件应用、乐器、杂志订阅、电子游戏以及礼品卡。
创建时间:
2024-06-02
原始信息汇总
数据集概述
数据集来源
- 使用2023年亚马逊评论数据集。
数据集处理
- 由于原始数据集大小超过150GB,选择合并14个类别,这些类别的压缩文件大小小于1GB,或总大小小于3GB。
数据集大小
- 合并后的数据集包含30,594,036条记录,总大小约为15GB。
包含的类别及记录数
- All_Beauty: 701,528 records
- Appliances: 2,128,605 records
- Health_and_Personal_Care: 494,121 records
- Industrial_and_Scientific: 5,183,005 records
- Amazon_Fashion: 2,500,939 records
- Baby_Products: 6,028,884 records
- Subscription_Boxes: 16,216 records
- Handmade_Products: 664,162 records
- Digital_Music: 130,434 records
- Software: 4,880,181 records
- Musical_Instruments: 3,017,439 records
- Magazine_Subscriptions: 71,497 records
- Video_Games: 4,624,615 records
- Gift_Cards: 152,410 records
搜集汇总
数据集介绍

构建方式
在构建2023年亚马逊评论数据集时,研究团队面临原始数据集超过150GB的挑战。为确保数据集的可管理性和实用性,团队精心挑选并合并了14个类别,这些类别的压缩文件大小均小于1GB,或总大小不超过3GB。通过这一策略,最终形成了包含30,594,036条记录、约15GB的数据集。合并的类别涵盖了从美容产品到软件、音乐等多个领域,确保了数据集的多样性和代表性。
特点
该数据集的显著特点在于其广泛的产品类别覆盖和均衡的数据分布。通过合并14个不同类别的评论数据,数据集不仅包含了大量用户反馈,还确保了各类产品评论的均衡性,从而为多领域的研究提供了丰富的数据支持。此外,数据集的规模适中,既便于存储和处理,又能提供足够的样本量以支持深入分析。
使用方法
使用该数据集时,研究者可以首先根据所需分析的产品类别进行数据筛选,利用数据集提供的详细分类信息快速定位相关评论。随后,可通过数据处理工具对评论内容进行情感分析、主题建模等高级分析,以揭示用户对不同产品的态度和偏好。此外,数据集的结构化格式也便于与其他数据源进行整合,从而进行更广泛的跨领域研究。
背景与挑战
背景概述
2023 Amazon Reviews Dataset是由McAuley实验室创建的大型数据集,旨在为电子商务领域的研究提供丰富的用户评论数据。该数据集涵盖了多个产品类别,包括美容、家电、健康与个人护理等,总计包含超过3000万条评论记录。这一数据集的创建不仅为研究人员提供了宝贵的资源,还推动了自然语言处理和推荐系统等领域的发展,特别是在理解消费者行为和产品评价方面。
当前挑战
尽管2023 Amazon Reviews Dataset提供了丰富的数据资源,但其构建过程中仍面临诸多挑战。首先,原始数据集规模庞大,超过150GB,处理和存储这些数据需要强大的计算资源。其次,数据集涉及多个产品类别,不同类别的评论数量和质量存在显著差异,如何有效整合和标准化这些数据是一个复杂的问题。此外,数据集中可能包含噪声和偏差,如何清洗和校正这些数据以确保分析结果的准确性和可靠性,也是研究人员需要克服的难题。
常用场景
经典使用场景
2023 Amazon Reviews Dataset,作为电子商务领域的重要资源,其经典使用场景主要集中在情感分析与产品推荐系统。研究者们利用该数据集中的用户评论,通过自然语言处理技术,分析消费者对不同产品的情感倾向,从而构建精准的情感分类模型。此外,该数据集也被广泛应用于推荐系统中,通过分析用户的历史评论,预测其未来可能感兴趣的产品,提升购物体验。
实际应用
在实际应用中,2023 Amazon Reviews Dataset被广泛用于优化电子商务平台的用户体验。例如,电商平台可以利用该数据集中的评论信息,实时调整产品推荐算法,提高用户购买转化率。同时,零售商和制造商也可以通过分析消费者的反馈,改进产品质量和服务,增强市场竞争力。
衍生相关工作
基于2023 Amazon Reviews Dataset,研究者们开展了一系列相关工作,推动了多个领域的技术进步。例如,有研究利用该数据集开发了新型情感分析模型,显著提升了情感识别的准确率。此外,还有学者基于此数据集构建了更为智能的推荐系统,通过深度学习技术,实现了个性化推荐。这些衍生工作不仅丰富了数据集的应用场景,也为相关技术的实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成



