contemmcm/amazon_reviews_2013
收藏Hugging Face2024-04-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/contemmcm/amazon_reviews_2013
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置(如all、amazon-instant-video、arts等),每个配置中包含产品信息(如标题、价格、类别)和评论信息(如有用性、评分、时间、摘要、文本)等特征。此外,还包含一些额外的指标(如有用性比例、总投票数)。该数据集适用于文本分类任务。
该数据集包含多个配置(如all、amazon-instant-video、arts等),每个配置中包含产品信息(如标题、价格、类别)和评论信息(如有用性、评分、时间、摘要、文本)等特征。此外,还包含一些额外的指标(如有用性比例、总投票数)。该数据集适用于文本分类任务。
提供机构:
contemmcm
原始信息汇总
数据集概述
任务类别
- 文本分类
数据集配置
-
config_name: all
- 特征:
- product/title: 字符串
- product/price: 字符串
- review/helpfulness: 字符串
- review/score: 分类标签(1星至5星)
- review/time: 整数
- review/summary: 字符串
- review/text: 字符串
- product/category: 分类标签(多个类别,如Amazon Instant Video, Arts, Automotive等)
- review/helpfulness_ratio: 浮点数
- review/helpfulness_total_votes: 整数
- 特征:
-
config_name: amazon-instant-video
- 特征: 同上
-
config_name: arts
- 特征: 同上
-
config_name: automotive
- 特征: 同上
-
config_name: baby
- 特征: 同上
-
config_name: beauty
- 特征: 同上
-
config_name: book
- 特征: 同上
-
config_name: cell-phone
- 特征: 同上
-
config_name: clothing
- 特征: 同上
-
config_name: electronics
- 特征: 同上
-
config_name: gourmet-food
- 特征: 同上
-
config_name: health
- 特征: 同上
-
config_name: home-kitchen
- 特征: 同上
-
config_name: industrial-scientific
- 特征: 同上
以上信息概述了数据集的配置和特征,适用于不同的类别,如Amazon Instant Video, Arts, Automotive等,每个配置包含相同的特征集。
搜集汇总
数据集介绍

构建方式
该数据集由亚马逊网站上的用户评论构成,包含了多种商品的详细信息和用户评分。数据集的构建通过爬取亚马逊网站上的商品页面和用户评论页面,提取了包括商品标题、价格、用户评分、评论时间、评论摘要和正文等特征信息。数据集还包含了商品分类信息,将商品分为27个不同的类别。此外,数据集还包含了评论的有用性比率和总投票数,用于评估评论的质量和影响力。
特点
该数据集的特点在于其规模庞大,包含了丰富的商品信息和用户评论数据。数据集中的商品分类信息为研究者提供了对商品类别的深入了解,有助于进行分类任务的研究。用户评分和评论的有用性比率和总投票数可以为商品推荐和评论分析提供重要的参考依据。此外,数据集还包含了评论的正文和摘要,为自然语言处理任务提供了丰富的文本数据。
使用方法
使用该数据集时,研究者可以根据需要选择不同的配置选项,如选择包含所有商品类别的数据集,或者选择特定商品类别的数据集。研究者可以使用数据集中的特征信息进行商品分类、评论情感分析、用户行为分析等任务。此外,数据集中的评论正文和摘要可以用于文本生成、文本摘要等自然语言处理任务。使用该数据集时,需要注意数据的版权和隐私保护问题,确保在合法合规的前提下进行研究和应用。
背景与挑战
背景概述
在电子商务领域,用户评价对于商品销售和消费者决策至关重要。amazon_reviews_2013数据集收集了亚马逊网站上的商品评价,涵盖了从2013年的丰富商品类别。该数据集由HuggingFace平台提供,旨在为文本分类研究提供高质量的训练数据。它不仅包括商品标题、价格、评价摘要和文本,还记录了评价的时间、帮助性比例和总投票数等关键信息,为研究提供了多维度的分析视角。
当前挑战
尽管amazon_reviews_2013数据集提供了丰富的信息,但在实际应用中仍面临一系列挑战。首先,数据集的多样性要求模型能够适应不同类别商品的特性,这增加了模型训练的复杂性。其次,评价文本中可能包含的非结构化信息,如表情符号和缩写,对自然语言处理技术提出了更高的要求。此外,如何准确评估评价的帮助性比例,以及如何处理不同时间段内的评价数据,也是研究中需要解决的问题。最后,随着电子商务市场的快速发展,如何确保数据集的时效性和更新频率,以适应新的商业环境,同样是一个挑战。
常用场景
经典使用场景
该数据集广泛用于自然语言处理领域,特别是文本分类任务。研究者可以训练模型对产品评论进行星级评分预测,或对评论的有用性进行评估。此外,数据集还支持对评论进行情感分析,以识别消费者的正面或负面情绪。
解决学术问题
该数据集解决了自然语言处理中情感分析和文本分类的难题。通过提供大量真实的消费者评论数据,研究者可以训练出具有较高准确性的模型,从而更好地理解和预测消费者的行为。此外,数据集还支持对评论有用性的评估,有助于提高推荐系统的质量和用户体验。
衍生相关工作
基于该数据集,研究者已经开发出了许多相关的经典工作。例如,一些研究使用该数据集来训练深度学习模型,以提高情感分析的准确率。此外,一些研究还使用该数据集来评估不同文本分类算法的性能,以找到最适合该任务的算法。
以上内容由遇见数据集搜集并总结生成



