Daraz-online-shopping-data-corpus
收藏github2023-09-28 更新2024-05-31 收录
下载链接:
https://github.com/nOOBIE-nOOBIE/Daraz-online-shopping-data-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从daraz.com.np网站上抓取的详细数据,共有12719行,每行包含单个产品的详细信息,如产品、类别、品牌、价格、卖家名称、平均产品评级、买家评论、买家评论标题和买家产品评论。数据集旨在帮助尼泊尔的研究人员进行项目研究。
This dataset comprises detailed data scraped from the daraz.com.np website, consisting of 12,719 rows, each containing specific information about individual products such as product name, category, brand, price, seller name, average product rating, buyer reviews, buyer review titles, and buyer product reviews. The dataset is designed to assist researchers in Nepal with their project studies.
创建时间:
2018-06-01
原始信息汇总
数据集概述
数据集名称
Daraz-online-shopping-data-corpus
数据集描述
该数据集包含从daraz.com.np网站上使用Scrapy爬虫技术抓取的详细数据,旨在协助尼泊尔研究者进行项目研究。
数据集规模
- 总行数:12719行
- 每行包含一个产品的详细信息。
数据集内容
- 产品信息:包括产品名称、类别、品牌、价格、卖家名称、平均产品评分、买家评论、买家评论标题、买家产品评价。
- 买家评论:包含买家评论和评分,具体分布如下:
- 1星:20条
- 2星:40条
- 3星:60条
- 4星:80条
- 5星:100条
数据集用途
主要用于支持尼泊尔研究者的研究项目。
搜集汇总
数据集介绍

构建方式
Daraz-online-shopping-data-corpus数据集是通过Scrapy框架从daraz.com.np网站上爬取的商品数据构建而成。该数据集旨在为尼泊尔的研究人员提供支持,涵盖了12719条商品记录,每条记录包含产品名称、类别、品牌、价格、卖家名称、平均产品评分以及买家评论等信息。数据的采集过程严格遵守了网络爬虫的伦理规范,并声明若涉及版权或法律问题将立即移除。
特点
该数据集的特点在于其详细记录了每件商品的买家评论和评分信息,包括评论内容、评论标题以及具体的评分等级。评分等级从1星到5星不等,分别对应20、40、60、80和100的数值表示。这种结构化的数据不仅为研究商品评价提供了丰富的文本信息,还为分析消费者行为和市场趋势提供了多维度的量化指标。
使用方法
使用该数据集时,研究人员可以通过分析买家评论和评分数据,探索消费者对商品的满意度、品牌忠诚度以及市场反馈。数据集中的结构化信息可以直接用于文本挖掘、情感分析和机器学习模型的训练。此外,结合产品类别和价格信息,还可以进行市场细分和定价策略的研究。使用前需确保遵守数据使用规范,避免侵犯版权或引发法律问题。
背景与挑战
背景概述
Daraz-online-shopping-data-corpus数据集由尼泊尔研究人员创建,旨在为尼泊尔学术界提供丰富的电子商务数据资源。该数据集通过Scrapy框架从daraz.com.np网站爬取,涵盖了12719条产品数据,每条数据包含产品名称、类别、品牌、价格、卖家信息、平均评分以及买家评论等多维度信息。该数据集的发布为尼泊尔研究人员在电子商务、消费者行为分析、自然语言处理等领域的研究提供了重要支持,尤其在多语言环境下的文本分析和情感分析方面具有显著的应用价值。
当前挑战
Daraz-online-shopping-data-corpus数据集在构建和应用过程中面临多重挑战。首先,数据爬取过程中需解决网站反爬虫机制和动态内容加载的技术难题,同时确保数据的完整性和准确性。其次,买家评论数据包含大量非结构化文本,涉及多语言混合和方言使用,这对文本预处理和情感分析提出了较高要求。此外,数据集的使用可能涉及版权和隐私问题,需在合法合规的前提下进行数据共享和研究。这些挑战不仅考验数据处理技术,也对研究者的跨学科能力提出了更高要求。
常用场景
经典使用场景
Daraz-online-shopping-data-corpus数据集广泛应用于电子商务领域的消费者行为分析。研究者通过该数据集中的产品信息、买家评论及评分数据,深入探讨消费者购买决策的影响因素,如品牌、价格、卖家信誉等。这些分析有助于揭示消费者偏好和市场趋势,为电商平台优化产品推荐和营销策略提供科学依据。
实际应用
在实际应用中,Daraz-online-shopping-data-corpus数据集被用于开发智能推荐系统和情感分析工具。电商平台利用这些工具,能够根据消费者的历史行为和评论数据,精准推荐符合其偏好的产品。同时,情感分析技术帮助企业实时监测消费者对产品的反馈,及时调整营销策略,提升用户满意度和品牌忠诚度。
衍生相关工作
基于该数据集,研究者已发表了多篇关于消费者行为分析和情感计算的经典论文。例如,一些研究利用机器学习算法对买家评论进行情感分类,揭示了不同评分区间的情感分布规律。此外,该数据集还推动了跨语言情感分析技术的发展,为尼泊尔语文本处理提供了重要的实验数据。
以上内容由遇见数据集搜集并总结生成



