five

BanglishRev

收藏
arXiv2024-12-18 更新2024-12-19 收录
下载链接:
https://huggingface.co/datasets/BanglishRev/bangla-english-andcode-mixed-ecommerce-review-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
BanglishRev是一个大规模的孟加拉语-英语及代码混合的电子商务产品评论数据集,由联合国际大学等机构创建。该数据集包含174万条评论,来自320万条评分信息,涵盖12.8万种产品,主要来源于孟加拉国的电子商务平台Daraz。每条评论附带丰富的元数据,如评分、评论日期、购买日期、点赞数、卖家回复及评论图片等。数据集的创建过程包括分类链接收集、产品URL收集和评论详情收集,使用了Selenium和BeautifulSoup等工具进行自动化数据抓取。该数据集主要用于情感分析任务,旨在帮助理解孟加拉语用户的消费偏好和市场动态。

BanglishRev is a large-scale e-commerce product review dataset containing mixed content in Bangla, English and programming code, developed by institutions including United International University. This dataset includes 1.74 million reviews derived from 3.2 million rating records, covering 128,000 products, and is primarily sourced from the Bangladeshi e-commerce platform Daraz. Each review is accompanied by comprehensive metadata such as star ratings, review timestamps, purchase dates, like counts, seller responses, and review images. The construction of this dataset involves collecting categorized links, product URLs and review details, with automated data scraping performed using tools like Selenium and BeautifulSoup. This dataset is primarily applied to sentiment analysis tasks, with the objective of facilitating the understanding of consumption preferences and market dynamics of Bengali-speaking users.
提供机构:
联合国际大学
创建时间:
2024-12-18
搜集汇总
数据集介绍
main_image_url
构建方式
BanglishRev数据集通过自动化爬虫技术构建,主要分为三个步骤:类别链接收集、产品URL收集和评论详情收集。首先,从Daraz平台的分类菜单中提取产品类别链接,并存储在CSV文件中。接着,通过迭代这些类别链接,收集每个类别下的产品URL,并保存到JSON文件中。最后,针对每个产品的评论页面,提取评论的详细信息,包括用户评分、评论内容、点赞数、卖家回复等,并同样存储在JSON文件中。数据集最终包含128,543个产品的评论信息,并对敏感信息如产品ID和用户ID进行了匿名化处理。
特点
BanglishRev数据集是迄今为止最大的孟加拉语、英语及混合语的电子商务产品评论数据集,包含174万条评论和320万条评分信息。其显著特点在于不仅包含评论文本,还涵盖了丰富的元数据,如评论日期、购买日期、点赞数、卖家回复以及与评论相关的图片链接等。此外,数据集还支持多种语言的评论,包括孟加拉语、英语、混合语(Code-mixed)和Banglish(孟加拉语单词用英语字母书写)。这些特点使得该数据集在情感分析、市场分析和消费者行为研究等领域具有广泛的应用潜力。
使用方法
BanglishRev数据集主要用于情感分析任务,尤其是二元情感分类(正面/负面)。通过将评论评分作为情感标签,研究人员可以训练和评估情感分析模型。例如,数据集中的评论评分大于3被视为正面情感,小于或等于3则被视为负面情感。此外,数据集还可用于其他研究领域,如消费者行为模式分析、垃圾评论检测等。研究人员可以通过Hugging Face平台访问该数据集,并利用其丰富的元数据进行多维度的分析和建模。
背景与挑战
背景概述
BanglishRev数据集是由Mohammad Nazmush Shamael、Sabila Nawshin、Swakkhar Shatabda和Salekul Islam等研究人员于2024年创建的,旨在为孟加拉语、英语及其混合形式(包括Banglish)的电子商务产品评论提供一个大规模的资源。该数据集包含了从孟加拉国最大的电子商务平台Daraz收集的1.74百万条评论,涵盖了3.2百万条评分信息,涉及128,000种产品。数据集不仅包括评论文本,还包含了丰富的元数据,如评分、评论日期、购买日期、点赞数、卖家回复以及与评论相关的图片链接等。BanglishRev的创建填补了孟加拉语电子商务评论数据集的空白,尤其在情感分析领域具有重要意义,其规模和多样性为相关研究提供了宝贵的资源。
当前挑战
BanglishRev数据集在构建过程中面临了多个挑战。首先,数据集包含了多种语言和混合语言的评论,如孟加拉语、英语、Banglish以及代码混合语言,这增加了文本处理的复杂性。其次,数据集的规模庞大,包含超过1.7百万条评论,这使得数据清洗、标注和模型训练变得极具挑战性。此外,数据集中存在大量的5星评论,导致情感分析任务中的类别不平衡问题。尽管如此,BanglishRev数据集在情感分析任务中表现出色,实验结果显示其训练的BanglishBERT模型在情感分类任务中达到了94%的准确率和0.94的F1分数。未来,该数据集还可用于检测虚假评论、市场分析以及消费者行为模式的研究。
常用场景
经典使用场景
BanglishRev数据集最经典的使用场景在于情感分析任务。由于该数据集包含了大量来自孟加拉语、英语以及混合语言的电子商务产品评论,研究人员可以利用这些评论进行二元情感分类(正面或负面)。通过将评论的评分作为情感标签,研究人员可以训练和评估情感分析模型,如BanglishBERT,以识别用户对产品的情感倾向。
解决学术问题
BanglishRev数据集解决了在孟加拉语和混合语言环境下进行情感分析的学术难题。由于孟加拉语的资源相对匮乏,该数据集的推出填补了这一领域的空白,使得研究人员能够更好地理解和分析孟加拉语用户的情感表达。此外,数据集中的丰富元数据(如评分、评论日期、卖家回复等)为更全面的情感分析提供了可能,推动了相关领域的研究进展。
衍生相关工作
BanglishRev数据集的推出催生了一系列相关研究工作。例如,研究人员基于该数据集训练了BanglishBERT模型,展示了其在情感分析任务中的卓越性能。此外,该数据集还激发了对混合语言处理、跨语言情感分析以及电子商务用户行为模式的研究。未来,该数据集有望在垃圾评论检测、市场分析和消费者行为研究等领域发挥更大的作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作