five

jhan21/amazon-food-reviews-dataset

收藏
Hugging Face2023-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jhan21/amazon-food-reviews-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含亚马逊上关于食品的评论,时间跨度超过10年,截至2012年10月,包含约500,000条评论。每条评论包括产品和用户信息、评分以及纯文本评论。数据集可用于情感分析、文本分类和用户行为分析等任务。评论主要为英文,数据集未提供标准的数据划分,用户需根据需要自行划分。数据集由SNAP小组整理,采用CC BY-SA 4.0许可证。

该数据集包含亚马逊上关于食品的评论,时间跨度超过10年,截至2012年10月,包含约500,000条评论。每条评论包括产品和用户信息、评分以及纯文本评论。数据集可用于情感分析、文本分类和用户行为分析等任务。评论主要为英文,数据集未提供标准的数据划分,用户需根据需要自行划分。数据集由SNAP小组整理,采用CC BY-SA 4.0许可证。
提供机构:
jhan21
原始信息汇总

数据集卡片 - Amazon Food Reviews

数据集描述

数据集概述

该数据集包含来自亚马逊的精细食品评论。数据跨越超过10年的时间,包括截至2012年10月的所有约500,000条评论。评论包括产品信息、用户信息、评分和纯文本评论。还包括所有其他亚马逊类别的评论。

支持的任务和排行榜

该数据集可用于多种任务,如情感分析、文本分类和用户行为分析。特别适用于训练模型理解客户反馈和偏好。

语言

评论主要为英语。

数据集结构

数据实例

典型的数据实例包括一条评论,包含产品ID、用户ID、评分、评论文本、有用性投票和评论时间等字段。

数据字段

  • ProductId: 产品的唯一标识符
  • UserId: 用户的唯一标识符
  • ProfileName: 用户的个人资料名称
  • HelpfulnessNumerator: 认为评论有用的用户数
  • HelpfulnessDenominator: 表示评论是否有用的用户总数
  • Score: 1到5之间的评分
  • Time: 评论的时间戳
  • Summary: 评论的简要总结
  • Text: 评论的文本

数据分割

数据集未分割成标准的训练/验证/测试集。用户可能需要根据自己的需求创建这些分割。

数据集创建

策划理由

该数据集旨在提供带有情感标签的大量文本评论集合,适用于情感分析和自然语言处理任务。

源数据

初始数据收集和规范化

数据从亚马逊的食品评论部分收集。

源语言生产者

源语言生产者是提供这些评论的亚马逊用户/顾客。

注释

注释过程

评论带有评分,可以转换为情感标签,但未描述额外的注释过程。

注释者

注释者是留下评论和评分的亚马逊用户。

个人和敏感信息

数据集包含用户ID和个人资料名称,可能用于识别评论者。

使用数据的注意事项

数据集的社会影响

该数据集提供了消费者偏好和情感的洞察,对企业和研究人员有价值。然而,应注意确保基于此数据训练的模型不会强化评论中存在的刻板印象或偏见。

偏见的讨论

数据集可能包含亚马逊用户群固有的偏见,可能不代表一般人群。

其他已知限制

数据集的范围限于食品产品,可能不适用于其他类型的产品或评论。

附加信息

数据集策展人

数据集最初由SNAP组策展。

许可信息

数据集在CC BY-SA 4.0许可下可用。

引用信息

如果基于此数据集发表文章,请引用以下论文:

J. McAuley and J. Leskovec. From amateurs to connoisseurs: modeling the evolution of user expertise through online reviews. WWW, 2013.

贡献

感谢@Stanford Network Analysis Project添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作