defunct-datasets/amazon_us_reviews
收藏Hugging Face2023-11-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/defunct-datasets/amazon_us_reviews
下载链接
链接失效反馈官方服务:
资源简介:
Amazon US Reviews数据集包含了来自多个产品类别的用户评论,数据集为单语种(英语),适用于多种任务类别,如摘要生成、文本生成、填充掩码和文本分类。每个产品类别的评论数据包含多个特征,如市场、客户ID、评论ID、产品ID、产品标题、星级评分、有用投票数、总投票数、Vine计划、已验证购买、评论标题、评论正文和评论日期。数据集分为多个配置,每个配置代表一个不同的产品类别,并提供了每个配置的示例数量和字节大小的详细信息。
The Amazon US Reviews Dataset comprises user reviews spanning multiple product categories. It is a monolingual (English-only) dataset applicable to diverse downstream tasks, including text summarization, text generation, masked language modeling, and text classification. Each product category's review data includes a set of standardized features: marketplace, customer ID, review ID, product ID, product title, star rating, number of helpful votes, total votes, participation in the Amazon Vine Program, verified purchase status, review title, review body, and review date. The dataset is structured into multiple configurations, where each configuration corresponds to a unique product category, with detailed metrics including the count of examples and byte size provided for every individual configuration.
提供机构:
defunct-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: Amazon US Reviews
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语种
- 数据集大小: 100M<n<1B
- 源数据集: 原始数据
任务类别
- 摘要生成
- 文本生成
- 填充掩码
- 文本分类
任务ID
- 文本评分
- 语言建模
- 掩码语言建模
- 情感分类
- 情感评分
- 主题分类
数据集配置
Books_v1_01
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 6997552259 bytes, 6106719 examples
- 下载大小: 2692708591 bytes
- 数据集大小: 6997552259 bytes
Watches_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 458976082 bytes, 960872 examples
- 下载大小: 162973819 bytes
- 数据集大小: 458976082 bytes
Personal_Care_Appliances_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 49036547 bytes, 85981 examples
- 下载大小: 17634794 bytes
- 数据集大小: 49036547 bytes
Mobile_Electronics_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 63293377 bytes, 104975 examples
- 下载大小: 22870508 bytes
- 数据集大小: 63293377 bytes
Digital_Video_Games_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 80176851 bytes, 145431 examples
- 下载大小: 27442648 bytes
- 数据集大小: 80176851 bytes
Digital_Software_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 58782931 bytes, 102084 examples
- 下载大小: 18997559 bytes
- 数据集大小: 58782931 bytes
Major_Appliances_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 67642424 bytes, 96901 examples
- 下载大小: 24359816 bytes
- 数据集大小: 67642424 bytes
Gift_Card_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 47188062 bytes, 149086 examples
- 下载大小: 12134676 bytes
- 数据集大小: 47188062 bytes
Video_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 356264426 bytes, 380604 examples
- 下载大小: 138929896 bytes
- 数据集大小: 356264426 bytes
Luggage_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 167354173 bytes, 348657 examples
- 下载大小: 60320191 bytes
- 数据集大小: 167354173 bytes
Software_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 266020595 bytes, 341931 examples
- 下载大小: 94010685 bytes
- 数据集大小: 266020595 bytes
Video_Games_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 1291054668 bytes, 1785997 examples
- 下载大小: 475199894 bytes
- 数据集大小: 1291054668 bytes
Furniture_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 405212374 bytes, 792113 examples
- 下载大小: 148982796 bytes
- 数据集大小: 405212374 bytes
Musical_Instruments_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 518908568 bytes, 904765 examples
- 下载大小: 193389086 bytes
- 数据集大小: 518908568 bytes
Digital_Music_Purchase_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 710546079 bytes, 1688884 examples
- 下载大小: 253570168 bytes
- 数据集大小: 710546079 bytes
Books_v1_02
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 3387034903 bytes, 3105520 examples
- 下载大小: 1329539135 bytes
- 数据集大小: 3387034903 bytes
Home_Entertainment_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 534333848 bytes, 705889 examples
- 下载大小: 193168458 bytes
- 数据集大小: 534333848 bytes
Grocery_v1_00
- 特征:
- marketplace: string
- customer_id: string
- review_id: string
- product_id: string
- product_parent: string
- product_title: string
- product_category: string
- star_rating: int32
- helpful_votes: int32
- total_votes: int32
- vine: class_label (N, Y)
- verified_purchase: class_label (N, Y)
- review_headline: string
- review_body: string
- review_date: string
- 分割:
- train: 1072289473 bytes, 2402458 examples
- 下载大小: 401337166 bytes
- 数据集大小: 1072289473 bytes
Outdoors_v1_00
搜集汇总
数据集介绍

构建方式
在电子商务研究领域,用户评论数据为理解消费者行为提供了宝贵资源。Amazon US Reviews数据集通过聚合亚马逊美国站点的真实用户评价构建而成,涵盖书籍、电子产品、家居用品等多个商品类别。其构建过程基于原始交易记录,未经人工标注,保留了用户自发撰写的评论文本、星级评分及辅助投票等元数据,确保了数据的真实性与原始性。数据以结构化格式组织,每个条目包含产品信息、用户反馈及时间戳,形成了规模庞大的自然语言语料库。
特点
该数据集以其丰富的多维度特征在文本分析领域脱颖而出。它不仅包含评论文本和标题,还整合了星级评分、有用性投票、验证购买标识及产品分类信息,为细粒度情感分析提供了支撑。数据规模达到数千万条,覆盖二十余个商品类别,呈现了消费者语言的多样性和领域特异性。其结构化设计允许研究者从产品、用户和时间等多个视角切入,探索评论质量、情感演变及跨类别比较等复杂问题。
使用方法
在自然语言处理应用中,该数据集支持多种任务范式。研究者可通过HuggingFace平台加载特定商品类别的配置,直接访问结构化数据字段。对于情感分析,可利用星级评分作为监督信号训练分类模型;文本生成任务则可基于评论内容构建摘要或续写模型。数据中的有用性投票可用于评估评论质量,而时间戳支持时序分析。使用时应遵循原始许可协议,注意处理个人标识信息的匿名化,并依据研究目标选择合适的子集以控制计算复杂度。
背景与挑战
背景概述
在电子商务与自然语言处理交叉领域,用户生成内容已成为理解消费者行为与产品反馈的宝贵资源。Amazon US Reviews数据集由亚马逊平台公开提供,其构建旨在为情感分析、文本摘要及推荐系统等任务提供大规模真实语料。该数据集收录了涵盖图书、电子产品、家居用品等多元品类的海量英文评论,每条记录均包含星级评分、评论正文及丰富的元数据。自发布以来,它已成为学术界与工业界评估模型在真实场景下泛化能力的重要基准,推动了观点挖掘与个性化服务技术的长足发展。
当前挑战
该数据集致力于解决情感分类与文本生成等任务的领域挑战,其核心在于捕捉用户评论中隐含的复杂情感倾向与细粒度观点。然而,构建过程中面临多重困难:评论文本存在大量噪声,如拼写错误、口语化表达及非结构化描述,增加了语义理解的难度;数据规模庞大且持续增长,对存储与处理效率提出严峻考验;同时,确保用户隐私与数据匿名化亦需精细设计。此外,跨品类评论的分布不均衡与领域适应性差异,为模型训练与评估带来了显著挑战。
常用场景
经典使用场景
在自然语言处理领域,亚马逊美国评论数据集常被用于情感分析模型的训练与评估。该数据集涵盖了书籍、电子产品、家居用品等多个商品类别的用户评论文本与星级评分,为研究者提供了丰富的标注语料。通过分析评论文本与星级之间的关联,模型能够学习从语言表达中识别情感倾向,进而实现自动化情感分类。这种应用不仅推动了情感分析技术的发展,也为更复杂的文本理解任务奠定了基础。
实际应用
在实际商业环境中,该数据集被广泛应用于产品推荐系统与市场舆情监测。企业通过分析海量用户评论的情感倾向,能够精准识别产品的优势与缺陷,从而优化产品设计与营销策略。在客户服务领域,自动化情感分析系统可以实时监测用户反馈,及时识别负面评价并触发干预机制。这些应用不仅提升了用户体验,也为企业决策提供了数据驱动的洞察,增强了市场竞争力。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作,例如基于深度学习的细粒度情感分析模型。这些工作利用评论文本与星级评分,探索了注意力机制、预训练语言模型在情感分类中的应用。部分研究还聚焦于虚假评论检测,利用验证购买等元数据特征识别异常模式。此外,该数据集也支撑了文本生成领域的研究,如评论摘要生成,旨在从冗长评论中提取关键信息,为用户提供简洁的购买参考。
以上内容由遇见数据集搜集并总结生成



