jhan21/amazon-food-reviews-dataset
收藏数据集卡片 - Amazon Food Reviews
数据集描述
数据集概述
该数据集包含来自亚马逊的精细食品评论。数据跨越超过10年的时间,包括截至2012年10月的所有约500,000条评论。评论包括产品信息、用户信息、评分和纯文本评论。还包括所有其他亚马逊类别的评论。
支持的任务和排行榜
该数据集可用于多种任务,如情感分析、文本分类和用户行为分析。特别适用于训练模型理解客户反馈和偏好。
语言
评论主要为英语。
数据集结构
数据实例
典型的数据实例包括一条评论,包含产品ID、用户ID、评分、评论文本、有用性投票和评论时间等字段。
数据字段
ProductId: 产品的唯一标识符UserId: 用户的唯一标识符ProfileName: 用户的个人资料名称HelpfulnessNumerator: 认为评论有用的用户数HelpfulnessDenominator: 表示评论是否有用的用户总数Score: 1到5之间的评分Time: 评论的时间戳Summary: 评论的简要总结Text: 评论的文本
数据分割
数据集未分割成标准的训练/验证/测试集。用户可能需要根据自己的需求创建这些分割。
数据集创建
策划理由
该数据集旨在提供带有情感标签的大量文本评论集合,适用于情感分析和自然语言处理任务。
源数据
初始数据收集和规范化
数据从亚马逊的食品评论部分收集。
源语言生产者
源语言生产者是提供这些评论的亚马逊用户/顾客。
注释
注释过程
评论带有评分,可以转换为情感标签,但未描述额外的注释过程。
注释者
注释者是留下评论和评分的亚马逊用户。
个人和敏感信息
数据集包含用户ID和个人资料名称,可能用于识别评论者。
使用数据的注意事项
数据集的社会影响
该数据集提供了消费者偏好和情感的洞察,对企业和研究人员有价值。然而,应注意确保基于此数据训练的模型不会强化评论中存在的刻板印象或偏见。
偏见的讨论
数据集可能包含亚马逊用户群固有的偏见,可能不代表一般人群。
其他已知限制
数据集的范围限于食品产品,可能不适用于其他类型的产品或评论。
附加信息
数据集策展人
数据集最初由SNAP组策展。
许可信息
数据集在CC BY-SA 4.0许可下可用。
引用信息
如果基于此数据集发表文章,请引用以下论文:
J. McAuley and J. Leskovec. From amateurs to connoisseurs: modeling the evolution of user expertise through online reviews. WWW, 2013.
贡献
感谢@Stanford Network Analysis Project添加此数据集。



