Amazon Fine Food Reviews dataset|食品评论数据集|情感分析数据集
收藏github2021-03-30 更新2024-05-31 收录
下载链接:
https://github.com/girishkuniyal/Sentiment-Analysis---Amazon-review-dataset
下载链接
链接失效反馈资源简介:
该数据集包含亚马逊上精细食品的评论,用于构建情感分析器。数据集详细记录了每条评论的ID、产品ID、用户ID、用户名、评分、帮助性评分分子和分母、时间、总结和文本内容。
This dataset comprises reviews of fine foods from Amazon, intended for the construction of sentiment analyzers. It meticulously documents each review's ID, product ID, user ID, username, rating, helpfulness score numerator and denominator, timestamp, summary, and text content.
创建时间:
2019-05-04
原始信息汇总
数据集概述
数据集名称
- Sentiment Analyzer
数据集类型
- NLP (Natural Language Processing)
数据集领域
- Machine Learning
数据集目的
- 构建一个先进的情感分析器,用于分析亚马逊精细食品评论。
数据集结构
-
原始数据结构
| id | ProductId | UserId | ProfileName | Score | HelpfulnessNumerator | HelpfulnessDenominator | Time | Summary | Text |
示例:
| 1 | B001E4KFG0 | A3SGXH7AUHU8GW | delmartian | 5 | 1 | 1 | 1303862400 | Good Quality Dog Food | I have bought several of the Vitality... |
-
预处理后数据结构
| Text | Sentiment |
示例:
| I have to say I was a little apprehensive to b... | 1 | | Received my free K cups as a sample promotion ... | 1 | | Brooklyn "French Roast" K-Cup Coffee is not on... | 0 |
数据预处理
- 包括数据清洗和特征工程,以使数据适合机器学习模型。
模型与性能
- Bag of Words (BOW)
- 性能:90.99%
- Bag of Words with Stemming
- 性能:90.51%
- Bag of Words with Lemmatization
- 性能:90.86%
- Bag of Words with n-grams (Bi-gram)
- 性能:91.13%
- Tri-gram性能:87.35%
- Combined Approach (Bag of words with Lemmatization and Bi-gram features)
- 性能:91.21%
- Binary Bag of Words with lemmatization and Bi-gram features性能:90.82%
- Term Frequency Inverse Document frequency (TFIDF)
- 性能:85.13%
- Average Word2Vec
- 性能:91.14%
- Recurrent Neural Network with Word2Vec
- 性能:95.26%
依赖库
- pandas, numpy, sklearn, matplotlib, seaborn, tensorflow, pytorch, nltk, spacy
AI搜集汇总
数据集介绍

构建方式
Amazon Fine Food Reviews数据集的构建基于亚马逊平台上的用户评论数据,涵盖了食品类产品的详细评价信息。数据收集后,经过预处理和特征工程,将原始评论转化为适合机器学习模型处理的格式。预处理步骤包括文本清洗、情感标签生成等,确保数据质量与模型训练的有效性。
特点
该数据集的特点在于其丰富的文本信息和多样化的情感表达。每条评论不仅包含用户对产品的评分,还附有详细的文本描述,涵盖了从正面到负面的广泛情感。此外,数据集还提供了用户ID、产品ID等元数据,便于进行更深层次的分析与建模。其规模适中,适合用于自然语言处理任务中的情感分析研究。
使用方法
该数据集的使用方法主要围绕情感分析任务展开。研究人员可以通过多种机器学习方法,如词袋模型、TF-IDF、Word2Vec等,对评论文本进行特征提取与建模。此外,还可以结合深度学习模型,如循环神经网络(RNN),进一步提升情感分类的准确性。数据集的使用流程通常包括数据加载、预处理、特征工程、模型训练与评估等步骤。
背景与挑战
背景概述
Amazon Fine Food Reviews数据集是一个广泛应用于自然语言处理(NLP)领域的情感分析数据集,主要聚焦于食品评论的情感分类。该数据集由亚马逊用户对食品类产品的评论组成,涵盖了从用户评分到详细评论文本的丰富信息。该数据集的创建旨在为情感分析任务提供高质量的训练数据,帮助研究人员和开发者构建高效的情感分析模型。自发布以来,该数据集在NLP领域的研究中发挥了重要作用,尤其是在情感分析、文本分类和推荐系统等任务中,成为评估模型性能的基准数据集之一。
当前挑战
Amazon Fine Food Reviews数据集在应用过程中面临多重挑战。首先,情感分析任务本身具有复杂性,评论中的情感表达往往具有多样性和模糊性,尤其是在涉及讽刺、隐喻等语言现象时,模型难以准确捕捉情感极性。其次,数据预处理阶段面临文本清洗、特征提取等难题,尤其是如何处理评论中的噪声数据(如拼写错误、缩写等)以及如何有效提取文本特征以提升模型性能。此外,构建高效的情感分析模型需要平衡模型的复杂性与计算资源,尤其是在使用深度学习模型(如RNN)时,如何优化模型结构以提升性能并减少计算开销是一个重要挑战。
常用场景
经典使用场景
Amazon Fine Food Reviews数据集在自然语言处理(NLP)领域中被广泛用于情感分析任务。通过对用户评论进行情感分类,研究者能够深入理解消费者对食品产品的态度和情感倾向。该数据集包含了大量真实的用户评论,涵盖了从正面到负面的多种情感表达,为构建高效的情感分析模型提供了丰富的训练数据。
解决学术问题
该数据集解决了情感分析中的关键问题,如文本分类、情感极性识别以及情感强度的量化。通过使用不同的机器学习方法,研究者能够评估和比较各种算法的性能,从而推动情感分析技术的发展。此外,该数据集还为研究文本预处理技术(如词干提取、词形还原和n-gram模型)提供了实验平台,帮助提升模型的准确性和鲁棒性。
衍生相关工作
基于Amazon Fine Food Reviews数据集,研究者们开发了多种经典的情感分析模型,如基于词袋模型(BOW)的分类器、结合词干提取和词形还原的改进模型,以及基于深度学习的循环神经网络(RNN)模型。这些工作不仅提升了情感分析的准确性,还为NLP领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成



