Amazon电影评论数据集

github2024-01-07 更新2024-05-31 收录

下载链接：

https://github.com/bazakoskon/labels-on-Amazon-movie-reviews-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从1997年8月至2012年10月期间，Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签，这些标签是通过爬取/抓取Amazon.com获得的，用于分类产品。

This dataset comprises 7,911,684 reviews from Amazon users for 253,059 products, spanning from August 1997 to October 2012. The dataset has been annotated with authentic labels, which were obtained through web scraping/crawling from Amazon.com, and are utilized for product classification.

创建时间：

2017-07-08

原始信息汇总

数据集概述

原始数据集

来源：Amazon Movies Reviews dataset
规模：包含7,911,684条评论，涉及253,059种产品。
时间范围：1997年8月至2012年10月。
数据格式：
- product/productId: 产品唯一标识，如B00006HAXW。
- review/userId: 用户ID，如A1RSDE90N6RSZF。
- review/profileName: 用户名称。
- review/helpfulness: 帮助性评分，如9/9。
- review/score: 产品评分。
- review/time: 评论时间（Unix时间）。
- review/summary: 评论摘要。
- review/text: 评论文本。

新标记数据集

目的：为数据科学社区提供一个丰富的新标记数据集。
标记方式：通过爬取/抓取Amazon.com获取产品分类标签。
数据格式：
- 新增product/categories字段，包含产品分类标签，如[CDs & Vinyl, Pop, Oldies, Doo Wop]。
存储：数据存储于labels.csv文件中，格式为：
- ASIN: 产品唯一标识。
- Categories: 分类标签列表。

数据集增强

操作：通过执行enrich.py脚本，将原始数据集与新标记数据集结合，生成增强数据集。
输出：增强数据集文件名为output.txt.gz。
功能：在原始数据集的基础上增加product/categories字段，提供产品分类信息。

数据集结构

层次格式：提供两个JSON文件，包含所有标签的层次结构（树形结构），包含ASIN和不包含ASIN两种格式。
生成：通过hierarchy.py脚本生成层次结构文件。

使用指南

下载原始数据集：从SNAP网站下载原始数据集（约3.3GB压缩文件）。
执行脚本：运行enrich.py脚本，生成增强的多标记数据集。

引用信息

论文：
- Bazakos Konstantinos and Ioannis Anagnostopoulos. Classification/Clustering Techniques for Large Web Data Collections. Dissertation, Hellenic Open University, 2017.
- J. McAuley and J. Leskovec. From amateurs to connoisseurs: modeling the evolution of user expertise through online reviews. WWW, 2013.

搜集汇总

数据集介绍

构建方式

Amazon电影评论数据集的构建过程基于对Amazon.com的爬取与数据收集，历时数月完成。原始数据集包含了1997年8月至2012年10月期间用户对253,059种产品留下的7,911,684条评论。在此基础上，通过进一步的数据处理，为每个产品添加了类别标签，形成了新的标注数据集。数据格式包括产品ID、用户ID、用户名称、评论有用性、评分、时间戳、评论摘要及正文，并新增了产品类别信息。

特点

该数据集的特点在于其规模庞大且内容丰富，涵盖了近800万条电影评论，每条评论均附有详细的元数据，如用户评分、评论时间及有用性等。此外，数据集还引入了产品类别标签，使得每条评论能够与特定的电影类别关联，增强了数据的可分析性。数据集还提供了层次化的类别结构，便于进行更深入的分析与研究。

使用方法

使用该数据集时，首先需从SNAP网站下载原始数据文件，并将其与提供的标签文件放置于同一目录下。随后，执行Python脚本`enrich.py`，脚本将自动解析原始数据并将类别标签映射到每条评论中，生成新的压缩文件`output.txt.gz`。该文件保留了原始数据的所有信息，并新增了产品类别字段，便于后续的分析与建模。

背景与挑战

背景概述

Amazon电影评论数据集由斯坦福大学网络分析平台（SNAP）于2013年发布，涵盖了1997年至2012年间亚马逊用户对253,059部电影产品的7,911,684条评论。该数据集的核心研究问题在于通过用户评论数据，分析用户行为、情感倾向以及产品推荐系统的优化。其主要贡献者包括Julian McAuley和Jure Leskovec，他们的研究为推荐系统和用户行为建模提供了重要数据支持。2017年，Bazakos Konstantinos在其硕士论文中进一步丰富了该数据集，增加了产品分类标签，使其在文本分类、情感分析和推荐系统等领域具有更广泛的应用价值。

当前挑战

Amazon电影评论数据集在解决领域问题时面临的主要挑战包括如何从海量评论中提取有效信息以提升推荐系统的准确性，以及如何通过情感分析理解用户对产品的真实反馈。在构建过程中，数据采集和标注的复杂性是另一大挑战。由于评论数据量庞大且格式多样，确保数据的完整性和一致性需要耗费大量时间和计算资源。此外，用户评论中常包含非结构化文本、拼写错误和口语化表达，这为自然语言处理任务带来了额外的难度。如何高效地处理和分析这些数据，同时保持数据的准确性和可解释性，是构建该数据集过程中亟待解决的问题。

常用场景

经典使用场景

Amazon电影评论数据集在自然语言处理领域中被广泛应用于情感分析和文本分类任务。研究者利用该数据集中的用户评论和评分，训练机器学习模型以识别评论中的情感倾向，如正面或负面评价。此外，该数据集还被用于研究用户行为模式，分析用户对不同电影类别的偏好。

衍生相关工作

基于Amazon电影评论数据集，研究者们开展了多项经典工作。例如，McAuley和Leskovec的研究通过分析用户评论的演变过程，提出了用户专业知识建模的方法。此外，Bazakos和Anagnostopoulos的研究则利用该数据集开发了大规模网络数据分类和聚类技术，为后续的文本分析研究提供了重要参考。

数据集最近研究