five

Starscream-11813/BanglaBook

收藏
Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Starscream-11813/BanglaBook
下载链接
链接失效反馈
官方服务:
资源简介:
BanglaBook是一个大规模的孟加拉语书籍评论数据集,用于情感分析。该数据集包含158,065个样本,分为正面、负面和中性三类。数据集中的每个样本包含书籍名称、作者姓名、书籍类别、评分、评论文本、在线书店名称以及情感标签。数据集的构建过程包括从在线书店收集数据、翻译非孟加拉语评论、手动验证翻译准确性等步骤。该数据集旨在为孟加拉语情感分析提供丰富的训练资源,并支持跨领域的适应性研究。

BanglaBook is a large-scale Bangla dataset for sentiment analysis from book reviews. The dataset consists of 158,065 samples classified into three broad categories: positive, negative, and neutral. Each sample in the dataset includes the book title, author name, book category, rating, review text, online bookstore name, and sentiment label. The dataset construction process involves collecting data from online bookstores, translating non-Bangla reviews, and manually verifying the accuracy of translations. The dataset aims to provide rich training resources for Bangla sentiment analysis and support cross-domain adaptability research.
提供机构:
Starscream-11813
原始信息汇总

BanglaBook 数据集概述

基本信息

  • 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
  • 任务类别:
    • 文本分类
    • 零样本分类
  • 语言:
    • 孟加拉语 (bn)
  • 标签:
    • 情感分析
    • 书籍评论
    • 产品评论
    • 孟加拉语
    • 孟加拉文
    • 数据集
  • 数据集名称: BanglaBook
  • 数据集规模: 100K < n < 1M

数据格式

每行包含一个书籍评论样本,各列的含义如下:

列标题 描述
id 样本的唯一标识号
Book_Name 被评论书籍的标题
Writer_Name 书籍作者的姓名
Category 书籍所属的类别
Rating 评分值 (r),范围为 (1 leq r leq 5),反映评论者对书籍质量的主观评价
Review 评论者撰写的评论文本
Site 在线书店的名称
sentiment 评论传达的情感和类别标签,具体标签如下:<br>$$ S_i =egin{cases} ext{Negative}, & ext{if } r_i leq 2\ ext{Neutral}, & ext{if } r_i = 3\ ext{Positive}, & ext{if }r_i geq 4 end{cases} $$
label 情感标签的数值表示,具体标签如下:<br>$$ label_i = egin{cases} 0, & ext{if } S_i = ext{Negative} \ 1, & ext{if } S_i = ext{Neutral} \ 2, & ext{if } S_i = ext{Positive} \ end{cases} $$

数据构建

数据收集过程

  • 从在线书店收集作者和书籍的URL。
  • 通过这些URL抓取书籍标题、作者姓名、书籍类别、评论文本、评论者姓名、评论日期和评分等信息。

标注、翻译和验证

  • 未评分的评论被视为未标注。
  • 评分1或2的评论被分类为负面,评分3的评论被视为中性,评分4或5的评论被分类为正面。
  • 最终数据集包含158,065条标注评论,其中89,371条完全用孟加拉语撰写,其余68,694条用罗马化孟加拉语、英语或混合语言撰写,并被翻译成孟加拉语。
  • 翻译结果经过手动审查和验证以确保准确性。
搜集汇总
数据集介绍
main_image_url
构建方式
在孟加拉语情感分析领域,数据资源的稀缺性长期制约着相关研究的深入发展。BanglaBook数据集的构建过程体现了系统化的数据工程方法,其核心流程始于从在线书店平台系统性地采集原始书评数据。研究团队首先构建了作者与书籍的URL索引,进而通过自动化爬虫技术获取了包括书名、作者、类别、评论文本及评分在内的多维信息。针对部分评论存在的语言混杂问题,数据集对非纯孟加拉语文本进行了机器翻译与人工校验的双重处理,最终形成了包含158,065条标注样本的高质量语料库,其中纯孟加拉语文本达89,371条。
特点
作为目前规模最大的孟加拉语书评情感分析数据集,BanglaBook展现出多维度特征优势。其数据规模达到十万级以上,覆盖正面、负面与中性三类情感标签,且每一条样本均包含书籍元数据、评分数值及原始评论文本。数据集特别保留了语言多样性特征,既包含原生孟加拉语书评,也涵盖了经过标准化处理的翻译文本。这种设计不仅增强了数据集的代表性,更为跨语言情感分析研究提供了宝贵的对比素材。数据集中丰富的书籍类别信息与评分分布,为细粒度情感分析与领域适应性研究创造了条件。
使用方法
该数据集为孟加拉语自然语言处理研究提供了标准化的实验平台。研究人员可通过HuggingFace平台直接加载数据集,利用其预划分的训练、验证与测试集进行模型训练与评估。数据集中包含的数值化标签与文本情感分类任务天然契合,支持传统机器学习方法与深度学习模型的直接应用。特别值得注意的是,数据集已成功应用于包括SVM、LSTM及Bangla-BERT在内的多种模型基准测试,其提供的基线结果为后续研究确立了可比较的性能标准。对于跨语言迁移学习研究,数据集的元数据字段为多任务学习提供了结构化支持。
背景与挑战
背景概述
在自然语言处理领域,情感分析作为理解用户观点与情绪的核心任务,其研究深度与广度高度依赖于高质量标注数据集的构建。尽管英语等资源丰富语言已拥有众多成熟数据集,但针对孟加拉语(Bangla)这类资源相对匮乏的语言,大规模、高质量的情感分析数据仍显稀缺。为填补这一空白,Mohsinul Kabir等研究人员于2023年在计算语言学协会(ACL)的学术会议上正式发布了BanglaBook数据集。该数据集聚焦于孟加拉语图书评论的情感分析,共包含158,065条标注样本,涵盖积极、中立与消极三类情感。其创建不仅为孟加拉语自然语言处理研究提供了关键的数据支撑,也推动了跨语言情感分析模型的发展,对资源稀缺语言的信息处理技术具有显著的促进作用。
当前挑战
BanglaBook数据集致力于解决孟加拉语情感分析领域的数据稀缺与模型泛化能力不足的核心挑战。具体而言,孟加拉语作为形态丰富、语法复杂的语言,其情感表达常蕴含文化特定语境与细微差异,使得传统基于规则或浅层机器学习的方法难以准确捕捉语义情感。在数据集构建过程中,研究人员面临多重困难:首先,原始评论数据中存在大量罗马化孟加拉语、英语或多语言混合文本,需通过机器翻译与人工校验进行统一转换,这一过程易引入翻译偏差与语义失真;其次,在线评论的评分与文本情感并非总是一致,仅依赖评分进行自动标注可能忽略语境中的反讽或矛盾表达,影响标签可靠性;此外,孟加拉语数字资源分散且标注规范不一,数据清洗与去重工作亦耗费大量人力。这些挑战共同凸显了在低资源语言中构建高质量数据集的复杂性与必要性。
常用场景
经典使用场景
在自然语言处理领域,特别是针对低资源语言的文本分析,大规模标注数据集的构建是推动模型性能提升的关键。BanglaBook数据集作为孟加拉语情感分析领域的重要资源,其最经典的使用场景在于为研究者提供了一个标准化的基准测试平台。该数据集通过158,065条标注书籍评论,支持从传统机器学习模型到预训练语言模型的多层次性能评估,尤其在验证预训练模型如Bangla-BERT在跨领域情感分类任务中的优越性方面,发挥了核心作用。
实际应用
在实际应用层面,BanglaBook数据集为孟加拉语地区的电子商务、文化产品推荐及市场分析提供了技术支撑。基于该数据集训练的情感分析模型,能够自动化处理在线书评,帮助出版商和零售商洞察消费者偏好,优化库存管理与营销策略。同时,在社交媒体监控与公共舆情分析中,此类模型可辅助识别用户对文学作品的集体情绪,为文化政策制定与教育资源配置提供数据驱动的决策参考。
衍生相关工作
围绕BanglaBook数据集,学术界衍生了一系列经典研究工作。例如,基于该数据集的基准测试推动了Bangla-BERT等预训练模型的优化与微调策略探索,相关论文在ACL 2023等顶级会议中发表。此外,研究者利用其进行错误分析,揭示了孟加拉语情感分类中常见的语言特征与模型偏差问题,进而促进了跨语言迁移学习与数据增强方法的发展,为低资源语言处理开辟了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作