E-commerce-Fashion-Product-Review-Dataset-1kNeg-1kPos
收藏github2025-11-28 更新2025-12-05 收录
下载链接:
https://github.com/juanitoarvn/E-commerce-Fashion-Product-Review-Dataset-1kNeg-1kPos
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含一个平衡的情感数据集,包含2000条印尼时尚电商评论,设计用于文本(和可选的多模态)情感分类。数据集包括原始和清理后的文本、产品元数据、可选的图片链接、评分和情感标签(4-5分为正面,1-2分为负面)。
This repository contains a balanced sentiment dataset consisting of 2000 Indonesian fashion e-commerce reviews, designed for textual (and optional multimodal) sentiment classification. The dataset includes raw and cleaned text, product metadata, optional image links, ratings, and sentiment labels, where reviews with 4-5 stars are categorized as positive and those with 1-2 stars are categorized as negative.
创建时间:
2025-11-28
原始信息汇总
E-commerce-Fashion-Product-Review-Dataset-1kNeg-1kPos 数据集概述
数据集基本信息
- 数据集名称: E-commerce-Fashion-Product-Review-Dataset-1kNeg-1kPos
- 数据文件:
combined_text_1k_pos_1k_neg.csv - 数据总量: 2,000 条样本
- 主要用途: 用于文本(及可选的多模态)情感分类研究、教育目的(情感建模、基准测试和预处理实验)。
数据构成与标注
- 情感类别平衡: 包含 1,000 条 正面 评论和 1,000 条 负面 评论。
- 标注规则: 基于用户评分(
rating)自动生成情感标签。- 正面 (
Positive): 评分rating为 4 或 5。 - 负面 (
Negative): 评分rating为 1 或 2。 - 评分 3 的评论未包含在此数据子集中。
- 正面 (
- 标签形式: 提供字符串标签 (
sentiment) 和数值标签 (sentiment_numeric),其中1代表正面,0代表负面。
数据内容与特征
- 语言: 评论文本为印度尼西亚语。
- 文本字段:
review: 原始评论文本,可能包含表情符号。clean_text: 经过预处理/标准化的文本版本,用于支持可复现的 NLP 流程。
- 元数据字段:
review_id: 每条评论的唯一标识符(如A000044)。tanggal: 评论日期(格式为YYYY-MM-DD),部分条目为"Tidak ada tanggal"(无日期)。日期范围从 2024-01-01 到 2025-08-30。username: 用户名,可能被掩码或为空。nama_produk: 产品名称/标题。variasi_produk: 产品变体信息,可能缺失。rating: 星级评分,取值为 1、2、4 或 5。
- 多模态支持(可选):
- 图像可用性: 1,255 行数据包含图像 URL 或文件名;745 行仅为文本(
"Tidak ada gambar",即无图像)。 - 图像相关字段:
link_gambar: 图像 URL 或"Tidak ada gambar"。file_gambar: 图像文件名(如A000044.jpg)或"Tidak ada gambar"。
- 图像可用性: 1,255 行数据包含图像 URL 或文件名;745 行仅为文本(
数据文件结构
数据文件 combined_text_1k_pos_1k_neg.csv 包含以下列:
| 列名 | 类型 | 描述 |
|---|---|---|
review_id |
string | 每条评论的唯一 ID |
tanggal |
string | 评论日期或 "Tidak ada tanggal" |
username |
string / nullable | 用户名(可能被掩码或为空) |
review |
string | 原始评论文本(印尼语) |
clean_text |
string | 用于建模的预处理/标准化文本 |
nama_produk |
string | 产品名称/标题 |
variasi_produk |
string / nullable | 产品变体信息(可能缺失) |
link_gambar |
string | 图像 URL 或 "Tidak ada gambar" |
file_gambar |
string | 图像文件名或 "Tidak ada gambar" |
rating |
int | 星级评分(1, 2, 4, 或 5) |
sentiment |
string | 情感标签: Positive / Negative |
sentiment_numeric |
int | 数值标签(1 = 正面, 0 = 负面) |
搜集汇总
数据集介绍

构建方式
在电子商务情感分析领域,数据集的构建质量直接影响模型性能的可靠性。该数据集通过系统化采集印度尼西亚时尚电商平台的用户评论,依据明确的评分规则进行情感标注:将评分为4或5星的评论归类为正面情感,评分为1或2星的评论归类为负面情感,并有意排除了中性评分的3星评论,从而确保了情感极性的清晰界定。数据采集过程中,除了文本评论外,还保留了部分样本对应的产品图像链接与文件名,为多模态分析提供了潜在支持,最终形成了包含2000条样本的平衡数据集。
特点
该数据集的核心特点在于其严谨的平衡性与丰富的元信息结构。样本总量为2000条,其中正面与负面情感评论各占1000条,这种均衡分布有助于避免分类模型训练过程中的类别偏差问题。数据字段设计详尽,不仅包含原始评论文本及经过清洗规整的文本版本,以支持可复现的自然语言处理流程,还涵盖了产品名称、变体信息、用户评分及情感标签等多维度属性。尤为值得注意的是,约62.75%的样本附带了图像信息,使得数据集兼具文本单模态与图文多模态分析的拓展潜力,为研究方法提供了灵活性。
使用方法
针对情感分类任务的研究与实践,该数据集提供了清晰的使用路径。研究者可直接加载CSV文件,利用其中的`clean_text`字段作为经过预处理的文本输入,以减少数据清洗的重复工作,并将`sentiment`或`sentiment_numeric`字段作为监督学习的标签。对于旨在探索多模态方法的用户,可结合`link_gambar`或`file_gambar`字段筛选出带有图像的样本,构建图文联合特征表示。数据集适用于模型训练、性能评测以及文本预处理技术对比等多种实验场景,为电子商务领域的自然语言处理与多模态学习研究提供了扎实的数据基础。
背景与挑战
背景概述
在电子商务蓬勃发展的时代背景下,消费者评论数据已成为洞察市场动态与用户情感的关键资源。E-commerce-Fashion-Product-Review-Dataset-1kNeg-1kPos数据集应运而生,专注于印度尼西亚时尚电商领域的文本情感分析。该数据集由研究社区构建,收录了共计两千条平衡的评论样本,每条样本均标注了基于评分的正向或负向情感标签。其核心研究问题在于通过自然语言处理技术,精准识别与分析非英语语境下的用户情感倾向,从而为跨语言情感计算、推荐系统优化以及消费者行为研究提供高质量的基准数据。该数据集的创建,不仅丰富了低资源语言的情感分析资源,也为东南亚地区的电商智能化发展注入了新的研究动力。
当前挑战
该数据集旨在解决时尚电商领域的情感分类问题,其首要挑战在于处理印度尼西亚语这一低资源语言的复杂语言现象,包括口语化表达、网络用语及表情符号的嵌入,这要求模型具备强大的跨语言与上下文理解能力。在构建过程中,数据采集面临了评论质量参差不齐的困难,部分样本存在信息缺失,如日期或图像数据不可用,影响了数据的一致性与多模态研究的可行性。此外,基于评分规则的情感标签划分虽简化了标注流程,但可能无法完全捕捉文本中隐含的细微情感差异,例如讽刺或混合情感的表达,这为模型的泛化性能带来了潜在考验。
常用场景
经典使用场景
在电子商务与自然语言处理交叉领域,该数据集为情感分析任务提供了标准化的基准资源。其经典使用场景集中于训练和评估文本分类模型,特别是针对印尼语时尚产品评论的二分类情感判别。研究者利用其平衡的正面与负面样本,能够系统性地探索语言特征与情感极性之间的关联,为跨语言情感理解奠定基础。
解决学术问题
该数据集有效解决了情感分析研究中数据稀缺与质量不均的常见问题。通过提供结构清晰、标注一致的印尼语评论,它支持了低资源语言环境下机器学习模型的性能验证,促进了跨语言情感分类方法的比较与优化。其包含的预处理文本与多模态元数据,进一步推动了文本清洗、特征工程及图文融合建模等学术议题的深入探讨。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于深度学习的印尼语情感分类器设计、跨语言迁移学习框架的构建,以及多模态情感分析模型的探索。这些工作不仅提升了特定语言场景下的模型精度,还推动了预训练语言模型在东南亚语言上的适配与应用,为区域化人工智能研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



