ai-with-mayank/ecommerce-reviews-sentiment

Name: ai-with-mayank/ecommerce-reviews-sentiment
Creator: ai-with-mayank
Published: 2026-05-01 13:40:00
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ai-with-mayank/ecommerce-reviews-sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个精心整理的电子商务和SaaS平台客户评论数据集，包含20,000条带有情感标签（正面、负面、中性）的评论，以及产品类别和评分等额外元数据。数据集专为情感分析任务设计，具有平衡的类别、多领域覆盖、丰富的元数据和经过预处理的干净数据。它还包括标准的训练/验证/测试分割，并附有详细的数据卡片。数据集收集自亚马逊、Yelp以及G2、Capterra、TrustRadius等SaaS评论平台，经过严格的预处理和质量过滤，确保数据质量和一致性。

A curated dataset of 20,000 labeled customer reviews from e-commerce and SaaS platforms for sentiment analysis tasks. Each review is labeled with sentiment (positive, negative, neutral) and additional metadata including product category and rating. The dataset features balanced classes, multi-domain coverage, rich metadata, clean preprocessed data, standard train/val/test splits, and comprehensive documentation. Reviews are collected from Amazon, Yelp, and SaaS platforms (G2, Capterra, TrustRadius), undergoing rigorous preprocessing and quality filtering to ensure data quality and consistency.

提供机构：

ai-with-mayank

搜集汇总

数据集介绍

构建方式

该数据集汇聚了自2020年至2023年间来自Amazon、Yelp、G2、Capterra及TrustRadius等主流电商与SaaS平台的共20,000条客户评论。数据采集通过各平台官方API完成，仅纳入已验证购买或经质量筛选的评论。原始数据经过严格的预处理流水线，包括去除HTML标签、标准化空白字符、移除URL与重复内容、过滤低质量与垃圾信息，并利用语言检测工具确保全部为英文文本。标签分配基于星级评分映射（1-2星为负面，3星为中性，4-5星为正面），对边界案例进行人工复核以提升标注一致性。最终通过分层抽样实现类别平衡，并按75%、15%、10%的比例划分为训练、验证与测试集。

特点

该数据集具有鲜明的多维度特征。在情感分布上，正面评论占比40%，负面35%，中性25%，构成相对均衡的三分类体系，避免了极端偏斜。评论内容横跨电子产品、软件/SaaS、家居厨房、美容个护等八个商品类别，并明确标示来源平台，为跨领域和跨平台的情感分析研究提供了丰富素材。每条记录不仅包含评论文本与情感标签，还附带星级评分、商品类别、来源与唯一标识符，为细粒度分析或元学习任务提供了可能。此外，数据经过严格去重、PII脱敏及内容审核，确保了高质量与合规性。

使用方法

使用者可通过Hugging Face Datasets库轻松加载该数据集，例如执行`load_dataset("IberaSoft/ecommerce-reviews-sentiment")`即可获取完整数据，或指定`split="train"`等参数获取特定子集。数据集适配于transformers库的微调流程，可直接与DistilBERT、RoBERTa等预训练模型结合进行情感分类训练。用户亦可利用`filter`方法按商品类别、情感倾向或来源平台进行子集筛选，或通过pandas进行统计分析。该数据集特别适用于训练电商与SaaS领域的客户反馈情感分析模型，也可作为多类文本分类的基准评测数据。

背景与挑战

背景概述

在电子商务与SaaS服务蓬勃发展的时代背景下，客户评论的情感分析已成为企业洞察用户需求、优化产品服务及提升市场竞争力的关键手段。该数据集由Juan Llorens于2026年创建，精心搜集了来自亚马逊、Yelp、G2、Capterra及TrustRadius等主流平台的20,000条客户评论，旨在为情感分析任务提供高质量、多领域的标注资源。每个评论均标注了积极、消极与中性三类情感，并附有产品类别、评分及来源等丰富元数据。该数据集的发布，为情感分析模型在电商与SaaS领域的训练与评估提供了标准化基准，推动了自然语言处理技术从学术研究向商业应用的转化。

当前挑战

该数据集所解决的领域问题在于，现有情感分析模型常因领域差异与数据偏差而难以准确捕捉电商评论中细腻的情感倾向，例如评分与情感之间的不一致性（如高评分伴随抱怨）。构建过程中，挑战尤为显著：数据收集需跨越多个平台，整合不同风格的评论语言，并处理诸如重复条目（经去重移除12%原始数据）、PII（个人可识别信息）脱敏以及边缘案例（如3星评分伴随积极措辞）的人工复核。此外，情感标签虽基于评分映射（1-2星为消极，3星为中性，4-5星为积极），但需通过手动验证确保98.7%的标注一致性，以平衡分布并减少平台与类别偏见。

常用场景

经典使用场景

在电子商务与软件即服务（SaaS）领域，情感分析是理解和挖掘客户反馈价值的核心技术手段。该数据集最经典的使用场景是训练和评估针对电商与SaaS平台客户评论的情感分类模型。通过利用其提供的20000条标注评论，研究者可以构建多类别情感分析系统，实现对正面、负面及中性情感的精准识别。数据集内丰富的元数据，如评分、产品类别和来源平台，为模型提供了更精细的输入特征，尤其适用于需要处理多领域、多来源评论情感的复杂任务场景。

解决学术问题

情感分析作为自然语言处理领域的核心课题，长期面临着跨领域泛化能力不足与类别不平衡带来的挑战。该数据集通过提供来源多样、类别相对均衡的标注语料，有效解决了模型在多域电商评论上的情感识别问题。其平衡的正负中性分布减少了学习偏差，同时丰富的类别与平台信息使得研究者能够深入探究领域迁移、平台偏好等对模型性能的影响。该数据集的公开为推动可迁移、鲁棒性更强的情感分析模型的发展提供了关键的数据基础，对理解用户行为与产品反馈的语义关联具有重要的学术意义。

衍生相关工作

围绕该数据集，社区已衍生出一系列卓有成效的基准研究工作。基于该数据集的微调模型customer-sentiment-analyzer展示了DistilBERT架构在此领域的高效性能，验证了轻量化模型在资源受限场景下的可行性。此外，该数据集常被用于多类文本分类的标杆对比实验，一系列经典模型如BERT-base、RoBERTa-base在其上获得了全面的性能评估。研究者还以此为基础探索了基于TF-IDF的传统机器学习方法与基于Transformer的深度学习方法在电商情感任务中的表现差异，从而推动了轻量与深层模型融合的新范式研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集