five

BanglishRev/bangla-english-and-code-mixed-ecommerce-review-dataset

收藏
Hugging Face2024-12-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BanglishRev/bangla-english-and-code-mixed-ecommerce-review-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
BanglishRev数据集是目前最大的孟加拉语、英语、混合语言及Banglish(用英文字母书写的孟加拉语)的电子商务产品评论数据集。该数据集包含174万条评论和320万条评分信息,覆盖了12.8万种产品。每条评论都包含丰富的元数据,如评分、评论日期、购买日期、点赞数、不喜欢数、卖家回复、相关图片等。数据集以JSON文件形式存储,每个JSON元素包含产品评论数量、评论列表、平均评分、评分计数、产品类别、父类别、根类别和产品ID等属性。

BanglishRev数据集是目前最大的孟加拉语、英语、混合语言及Banglish(用英文字母书写的孟加拉语)的电子商务产品评论数据集。该数据集包含174万条评论和320万条评分信息,覆盖了12.8万种产品。每条评论都包含丰富的元数据,如评分、评论日期、购买日期、点赞数、不喜欢数、卖家回复、相关图片等。数据集以JSON文件形式存储,每个JSON元素包含产品评论数量、评论列表、平均评分、评分计数、产品类别、父类别、根类别和产品ID等属性。
提供机构:
BanglishRev
原始信息汇总

BanglishRev数据集概述

数据集描述

BanglishRev数据集是目前最大的电子商务产品评论数据集,包含1.74百万条评论,涉及3.2百万条评分信息,涵盖12.8万种产品。这些评论主要针对使用孟加拉语、英语及两者的混合语言(Banglish)的在线电商平台。数据集不仅包括评论内容,还包含丰富的元数据,如评分、评论发布日期、购买日期、点赞数、点踩数、卖家回复及关联图片等。

数据集结构

数据集以JSON格式存储,每个JSON元素包含以下属性:

  • Number Of Reviews: 产品收到的评论总数。
  • Reviews: 评论对象列表。
    • Buyer ID: 买家ID。
    • Current Rating: 买家给出的评分。
    • Review Content: 评论内容。
    • Review Date: 评论发布日期。
    • Likes: 点赞数。
    • Dislikes: 点踩数。
    • Date Bought: 产品购买日期。
    • Reply: 卖家回复。
    • Images: 与评论关联的图片URL列表。
  • Average Rating: 产品平均评分。
  • Score Counts: 各评分(1星至5星)的计数。
  • Category: 产品类别。
  • Parent Category: 产品父类别。
  • Root Category: 产品根类别。
  • Product ID: 产品ID。

示例条目

json [ { "Number Of Reviews": 2, "Reviews": [ { "Buyer ID": 1763002, "Current Rating": "1", "Review Content": "খুব ভালো কাবার", "Review Date": "2024-02-15", "Likes": "1", "Dislikes": "0", "Date Bought": "2024-02-07", "Reply": "অসংখ্য ধন্যবাদ সার 🥰🥰🥰", "Images": [ { "Image URL": "https://sg-test-11.slatic.net/other/roc/00eda86ee26b963f0078929385388a11.jpg", } ] }, { "Buyer ID": 1338289, "Current Rating": "5", "Review Content": "Khob valo.... kinto selar shobidha jonok naa", "Review Date": "2023-06-25", "Likes": "0", "Dislikes": "0", "Date Bought": "2023-06-09", "Reply": "ধন্যবাদ সার 🥰🥰🥰🥰🥰", "Images": [] } ], "Average Rating": 3.0, "Score Counts": { "1 Star": "1", "2 Star": "0", "3 Star": "0", "4 Star": "0", "5 Star": "1" }, "Category": "Phone Cases", "Parent Category": "Trendy Mobile Accessories", "Root Category": "Electronics Device" "Product ID": "1400200" } ]

搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务领域,多语言和语码混合的评论数据对自然语言处理研究具有重要价值。BanglishRev数据集通过系统性地收集面向孟加拉人群体的在线电商平台数据构建而成,涵盖了128万种商品,从320万条评分信息中提取了174万条书面评论。数据采集过程注重完整性,不仅收录了孟加拉语、英语及其混合变体(包括使用拉丁字母书写的孟加拉语,即Banglish)的文本内容,还整合了丰富的元数据,如评分、发布日期、购买日期、点赞与点踩数量、卖家回复以及关联图像等,并以结构化JSON格式存储,确保了数据的可访问性与可扩展性。
特点
该数据集在电子商务多语言文本资源中展现出显著特色。其规模庞大,是目前针对孟加拉语、英语及语码混合电商评论的最大规模数据集,为低资源语言处理提供了宝贵语料。数据多样性突出,不仅包含纯语言文本,还涵盖了孟加拉语与英语的混合形式以及拉丁化书写变体,真实反映了实际网络交流中的语言使用现象。此外,数据集附带的元数据极为丰富,包括用户互动指标、时间戳、层级化商品分类及图像链接,为多模态分析与细粒度研究奠定了坚实基础。
使用方法
研究人员可利用该数据集开展广泛的自然语言处理任务。在单语与跨语言场景下,可将其用于情感分析、评论分类、垃圾检测及语言识别等模型的训练与评估。其语码混合特性尤其适合用于研究语言适应、代码转换检测及混合语言建模等前沿课题。借助其结构化JSON格式,用户可便捷地通过编程接口加载数据,并利用丰富的元数据字段进行多维度的数据筛选与特征提取,例如结合评分、时间序列和图像信息进行多模态情感分析,或依据商品类别进行领域特定的语言研究。
背景与挑战
背景概述
随着电子商务在全球范围内的蓬勃发展,多语言和语码混合文本分析逐渐成为自然语言处理领域的前沿课题。BanglishRev数据集于2024年由Mohammad Nazmush Shamael等研究人员构建,旨在针对孟加拉语、英语及其混合变体(包括使用拉丁字母书写的孟加拉语,即Banglish)的电商产品评论进行大规模收集与分析。该数据集涵盖了约174万条评论,涉及12.8万种商品,不仅规模空前,还附带了丰富的元数据,如评分、日期、互动反馈及关联图像等。其核心研究问题聚焦于低资源语言环境下的情感分析、语码混合现象建模以及跨语言信息理解,为南亚地区语言技术的研究与应用提供了关键的数据支撑,显著推动了多语言NLP模型在真实商业场景中的适应能力。
当前挑战
在领域问题层面,该数据集致力于解决多语言及语码混合文本的情感分析与分类挑战,尤其是在孟加拉语与英语交织的复杂语言环境中,传统单语模型难以准确捕捉语义和情感倾向。构建过程中的挑战主要体现在数据采集与标注的复杂性上:首先,需要从多个电商平台高效爬取并整合海量评论,同时确保用户隐私与数据合规性;其次,语码混合文本缺乏统一的书写规范,导致预处理和归一化难度增加;此外,评论中夹杂的噪声信息(如非标准拼写、口语化表达及多模态内容)也对数据清洗和结构化提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,针对孟加拉语和英语混合文本的分析一直面临数据稀缺的挑战。BanglishRev数据集以其大规模、多模态的特性,为研究者提供了经典的语料库应用场景,特别是在电子商务评论的情感分析、语言识别和代码混合文本处理方面。该数据集不仅包含纯文本评论,还整合了评分、图像及元数据,使得模型训练能够覆盖从文本理解到多模态融合的全流程,为跨语言和混合语言环境下的机器学习任务奠定了坚实基础。
解决学术问题
该数据集有效解决了低资源语言处理中的关键学术问题,尤其是孟加拉语及其与英语混合文本的标注数据匮乏难题。通过提供海量真实场景下的评论数据,它支持了代码混合语言建模、跨语言情感分析以及多模态信息融合等前沿研究方向。其丰富的元数据进一步助力于细粒度情感分类、虚假评论检测和用户行为分析,推动了计算语言学在多元文化背景下的理论深化与方法创新。
衍生相关工作
围绕BanglishRev数据集,已衍生出多项经典研究工作,主要集中在代码混合文本分类、多语言情感分析模型以及跨模态学习框架的开发上。例如,研究者利用该数据集训练了针对孟加拉语-英语混合文本的BERT变体,提升了低资源语言下的语义理解能力;同时,结合图像与文本的多模态方法也在商品质量评估和虚假评论识别中取得了显著进展,为后续的学术探索和工业应用提供了宝贵参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作