sekarmulyani/ulasan-beauty-products
收藏Hugging Face2023-08-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sekarmulyani/ulasan-beauty-products
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Shopee和Tokopedia平台上38家专门销售女性美容产品的官方店铺中收集的评论数据。数据收集使用了自动抓取工具,随后进行了数据标准化处理,包括处理表情符号、删除换行符和将文本转换为小写。数据集用于学术目的,是计算机科学专业毕业要求的一部分。数据集的语言是印尼语,并采用了one-hot编码技术。
提供机构:
sekarmulyani
原始信息汇总
Review Dataset of Womens Beauty Product in Tokopedia and Shopee
概述
- 数据集名称: Review Dataset of Womens Beauty Product in Tokopedia and Shopee
- 许可协议: Apache-2.0
- 任务类别: 文本分类
- 语言: 印度尼西亚语
- 数据规模: 10K<n<100K
- 别名: ulasan-beauty-products
数据集详情
- 数据来源: 从Shopee和Tokopedia平台上的38家官方美妆产品店铺收集的评论数据。
- 数据收集方法: 使用爬虫机器人自动从产品页面提取评论。
- 数据处理:
- 使用表情符号库处理评论中的表情符号。
- 删除换行符以保持数据的一致性和可读性。
- 将所有文本转换为小写,以减少因字母大小写变化引起的文本分析差异。
- 数据格式: 采用one-hot编码技术。
- 数据集划分:
- 训练集: 57.2K行
- 测试集: 3.81K行
- 验证集: 15.3K行
项目背景
- 项目目的: 学术研究,作为Universitas Amikom Purwokerto计算机科学专业的毕业要求。
- 隐私保护: 评论者的身份已被完全删除或模糊处理,以保护其隐私。
引用信息
@misc {sekar_mulyani_2023, author = { {Sekar Mulyani} }, title = { ulasan-beauty-products (Revision b8202dc) }, year = 2023, url = { https://huggingface.co/datasets/sekarmulyani/ulasan-beauty-products }, doi = { 10.57967/hf/1028 }, publisher = { Hugging Face } }
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个印尼语美妆产品评论数据集,包含来自Shopee和Tokopedia平台38家官方店铺的约7.6万条评论,用于文本分类任务。数据经过爬虫抓取和标准化预处理(如表情处理、文本小写化),采用one-hot编码表示星级评分,并已匿名化处理,适用于学术研究。
以上内容由遇见数据集搜集并总结生成



