five

tokopedia-product-reviews-2019

收藏
Hugging Face2025-07-28 更新2025-07-29 收录
下载链接:
https://huggingface.co/datasets/farhamu/tokopedia-product-reviews-2019
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含40,607条来自印尼电商平台Tokopedia的产品评论数据集,语言为印尼语。数据集可用于情感分析、产品评论分析、电商研究等领域,涵盖了5个产品类别,于2019年收集。数据集的结构包括评论文本、评分、产品类别、产品名称、产品ID、销售数量、店铺ID和产品页面URL。数据集的收集通过网页抓取完成,并考虑了伦理问题,如个人信息的匿名化。

这是一个包含40,607条来自印尼电商平台Tokopedia的产品评论数据集,语言为印尼语。数据集可用于情感分析、产品评论分析、电商研究等领域,涵盖了5个产品类别,于2019年收集。数据集的结构包括评论文本、评分、产品类别、产品名称、产品ID、销售数量、店铺ID和产品页面URL。数据集的收集通过网页抓取完成,并考虑了伦理问题,如个人信息的匿名化。
创建时间:
2025-07-28
原始信息汇总

Tokopedia Product Reviews 2019 数据集概述

数据集描述

  • 包含2019年从印度尼西亚最大电商平台Tokopedia抓取的40,607条产品评论。
  • 提供对印尼电商市场客户情感和购物行为的宝贵洞察。

数据集摘要

  • 语言:印尼语(Bahasa Indonesia)
  • 任务:情感分析、产品评论分析、电商研究
  • 规模:40,607条评论
  • 类别:5个产品类别
  • 唯一产品数:3,647
  • 收集时间:2019年

数据结构

数据字段

  • text(字符串):客户撰写的评论文本
  • rating(整数):评论者给出的评分(通常为1-5分制)
  • category(字符串):产品类别,包括:
    • pertukangan(工具/硬件)
    • fashion(时尚)
    • elektronik(电子产品)
    • handphone(手机)
    • olahraga(体育用品)
  • product_name(字符串):产品名称
  • product_id(字符串):产品唯一标识符
  • sold(整数):销售数量
  • shop_id(字符串):店铺/卖家唯一标识符
  • product_url(字符串):产品页面链接

数据划分

  • 数据集为单一划分,包含全部40,607条评论。

数据集统计

类别 数量
总评论数 40,607
唯一产品数 3,647
产品类别数 5
语言 印尼语

使用案例

  • 情感分析:基于评论文本和评分分类客户情感
  • 产品推荐:分析不同类别的产品偏好
  • 市场研究:理解印尼电商客户行为
  • 自然语言处理:训练电商领域的印尼语模型
  • 类别分类:从评论文本预测产品类别
  • 评分预测:从评论文本预测客户评分

数据收集

  • 通过2019年Tokopedia产品页面的网络抓取收集。
  • 抓取过程涵盖五个主要产品类别的真实客户评论。

伦理考虑

  • 包含Tokopedia平台上的公开评论
  • 个人信息已匿名化
  • 数据反映真实客户意见和体验
  • 用户应注意数据中的潜在偏见

限制

  • 时间限制:数据来自2019年,可能不反映当前市场趋势
  • 平台限制:仅限于Tokopedia平台
  • 类别限制:仅涵盖5个产品类别
  • 语言限制:主要为印尼语

引用

bibtex @dataset{tokopedia-product-reviews-2019, title={Tokopedia Product Reviews 2019}, author={[M. Farhan]}, year={2025}, url={https://huggingface.co/datasets/farhamu/tokopedia-product-reviews-2019}, note={Indonesian e-commerce product reviews dataset from Tokopedia platform} }

联系方式

  • 邮箱:kontak.farhan@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统化的网络爬虫技术采集自印度尼西亚最大电商平台Tokopedia 2019年的商品页面,覆盖五金工具、时尚服饰、电子产品、移动设备和运动器材五大商品类别。数据采集过程严格遵循网络伦理规范,保留了原始评论文本与评分信息,同时对所有商家ID和商品ID进行匿名化处理,确保用户隐私安全。采集样本共计40,607条真实用户评价,涉及3,647种不同商品,具有较好的品类代表性和数据多样性。
特点
作为印度尼西亚电商领域的重要语料库,该数据集以纯印尼语呈现,包含评论文本、1-5星评级、商品类别等结构化字段,完整保留了商品链接与销售数量等商业维度。其独特价值在于真实记录了2019年东南亚新兴电商市场的消费反馈,五大品类评价数据均衡分布,为研究区域化电商生态提供了珍贵样本。数据字段间存在多重关联性,如评分与文本情感、品类与销售量的潜在关系,适合多角度交叉分析。
使用方法
研究者可通过Hugging Face数据集库直接加载该资源,利用标准接口获取包含全部字段的完整评论数据。典型应用场景包括构建印尼语情感分析模型、开发跨品类商品推荐系统,或进行东南亚消费者行为研究。需注意数据存在2019年的时间局限性,建议结合最新市场数据开展对比研究。使用时应遵循数据提供者的引用规范,并充分考虑印尼语言特性对NLP模型性能的影响。
背景与挑战
背景概述
Tokopedia Product Reviews 2019数据集由M. Farhan于2019年构建,收录了印度尼西亚最大电商平台之一Tokopedia上的40,607条产品评论。该数据集聚焦于印尼电商市场的消费者情感分析与购物行为研究,覆盖五金工具、时尚、电子产品、手机和体育用品五大品类,涉及3,647种独特商品。作为东南亚地区首个公开的电商评论数据集,它为理解印尼语自然语言处理、跨文化消费行为以及电商平台用户反馈机制提供了重要实证基础,推动了东南亚地区计算语言学与电商研究的交叉发展。
当前挑战
该数据集面临多重挑战:在领域问题层面,印尼语的复杂语法结构和混合英语的语码转换现象增加了情感分析模型的训练难度;稀疏的评分分布(如极端评分占比过高)导致传统情感分类算法性能下降。在构建过程中,电商平台的反爬机制限制了数据采集完整性,2019年的时间戳造成数据时效性局限,且五大品类覆盖度不均可能引入样本偏差。此外,匿名化处理虽保护了用户隐私,但丢失了商家信誉等级等关键特征,制约了推荐系统等下游任务的深度建模。
常用场景
经典使用场景
在电子商务领域,Tokopedia Product Reviews 2019数据集为研究人员提供了丰富的印尼市场消费者反馈数据。该数据集最经典的使用场景是情感分析,通过分析顾客的评论文本和评分,可以深入理解消费者对产品的满意度和情感倾向。此外,该数据集还可用于产品推荐系统的开发,通过分析不同产品类别的评论,挖掘消费者的偏好和需求。
衍生相关工作
该数据集衍生了许多经典的研究工作,特别是在情感分析和产品推荐领域。许多研究利用该数据集开发了针对印尼市场的自然语言处理模型,并在国际会议上发表了相关论文。此外,该数据集还被用于跨文化电子商务研究,比较不同地区的消费者行为差异。
数据集最近研究
最新研究方向
近年来,Tokopedia Product Reviews 2019数据集在电子商务和自然语言处理领域引起了广泛关注。作为印度尼西亚最大的电子商务平台之一,Tokopedia的用户评论数据为研究东南亚市场的消费者行为提供了宝贵资源。前沿研究方向主要集中在多语言情感分析模型的优化,特别是针对印尼语的细粒度情感分类。随着预训练语言模型的普及,该数据集被用于微调印尼语BERT等本土化模型,以提升电商场景下的语义理解能力。在应用层面,研究者们正探索如何结合评论文本与销量数据构建更精准的产品推荐系统。此外,跨文化消费行为分析也成为热点,通过对比不同商品类别下的评价模式,揭示印尼市场的独特偏好。尽管数据采集于2019年,但其在低资源语言处理领域的参考价值仍持续受到学术界重视。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作