BRBT-dataset-pickles
收藏github2021-04-20 更新2024-05-31 收录
下载链接:
https://github.com/Asif-Hassan/BRBT-dataset-pickles
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含9337个Bangla文本样本的数据集,用于情感分析模型。数据集独特之处在于它还包含了至今被忽视的Romanized Bangla,即使用英文字母书写的Bangla。数据来源于Facebook、Twitter、YouTube等社交媒体和在线新闻门户及产品评论页面。数据经过手动标注,分为正面、负面和模糊三类。
This dataset comprises 9,337 Bangla text samples designed for sentiment analysis models. Its uniqueness lies in the inclusion of Romanized Bangla, which refers to Bangla written using the English alphabet, a feature that has been largely overlooked until now. The data is sourced from social media platforms such as Facebook, Twitter, YouTube, as well as online news portals and product review pages. Each entry has been manually annotated and categorized into positive, negative, and ambiguous sentiments.
创建时间:
2016-07-20
原始信息汇总
数据集概述
数据统计
- 总帖子数:9337
- 孟加拉语帖子数:6698
- 罗马化孟加拉语帖子数:2639
数据来源
- Facebook:4621
- Twitter:2610
- YouTube:801
- 在线新闻门户:1255
- 产品评论页面:50
数据处理
- 移除表情符号:移除表情符号和标签,以提供无偏见的纯文本内容。
- 替换专有名词:专有名词被替换为
<PN>标签,以增加模糊性。 - 手动验证:数据样本由两位不同的孟加拉语母语者独立标注,分为积极、消极和模糊三类。
数据集访问
- 数据集格式:使用 BRBT(孟加拉语和罗马化孟加拉语)情感分析数据集的腌制文件。
- 数据集可用性:当前数据集的原始 xlsx 文件不公开,但可通过电子邮件联系作者获取。
搜集汇总
数据集介绍

构建方式
BRBT数据集是通过从多个社交媒体平台和在线新闻门户中收集孟加拉语和罗马化孟加拉语文本构建而成。数据来源包括Facebook、Twitter、YouTube、在线新闻门户和产品评论页面。在数据预处理阶段,移除了表情符号和标签,以确保文本内容的无偏性,并将专有名词替换为<PN>标签以增加模糊性。每个文本样本由两位母语为孟加拉语的标注者独立进行手动标注,分为正面、负面和模糊三类。
特点
BRBT数据集包含9337个文本样本,其中6698个为孟加拉语文本,2639个为罗马化孟加拉语文本。该数据集的独特之处在于其涵盖了罗马化孟加拉语,这是一种使用英文字母书写的孟加拉语形式,因其便捷性在个人消息、微博以及政府公告中日益流行。数据集中的每个文本样本都经过严格的手动标注,确保了情感分类的准确性。
使用方法
BRBT数据集以pickle文件形式提供,可直接用于神经网络模型的情感分析任务。用户可以通过加载这些pickle文件,快速将数据输入到深度学习框架中进行训练和测试。由于数据集本身(xlsx文件)目前未公开,用户需通过电子邮件联系作者获取访问权限。数据集的使用需遵循作者提供的引用指南,以确保学术研究的规范性。
背景与挑战
背景概述
BRBT-dataset-pickles数据集由多位研究人员在2016年创建,主要基于一项未发表的论文研究,旨在推动孟加拉语及罗马化孟加拉语的情感分析研究。该数据集包含9337条文本样本,其中6698条为孟加拉语文本,2639条为罗马化孟加拉语文本,数据来源包括Facebook、Twitter、YouTube等社交媒体平台以及在线新闻门户和产品评论页面。该数据集的独特之处在于其涵盖了罗马化孟加拉语,这一语言形式因其书写便捷性在社交媒体和政府公告中日益普及。数据集通过手动标注和预处理,确保了文本的纯净性和标注的准确性,为情感分析领域提供了重要的研究资源。
当前挑战
BRBT-dataset-pickles数据集在构建和应用过程中面临多重挑战。首先,情感分析任务本身具有主观性,尤其是对于罗马化孟加拉语这种非标准语言形式,其情感倾向的标注难度较高。其次,数据预处理阶段需要移除表情符号、标签和专有名词,以确保标注的客观性,这一过程耗时且复杂。此外,数据集的公开性受限,原始数据未完全公开,仅以pickle文件形式提供,限制了研究者的灵活使用。最后,罗马化孟加拉语的语法和词汇多样性增加了模型训练的复杂性,对情感分析算法的鲁棒性提出了更高要求。
常用场景
经典使用场景
BRBT-dataset-pickles数据集主要用于情感分析领域,特别是在处理孟加拉语及其罗马化文本的情感分类任务中。该数据集通过提供经过预处理的孟加拉语和罗马化孟加拉语文本,为神经网络模型提供了高质量的输入数据。研究人员可以利用这些数据训练模型,以识别和分类社交媒体、新闻门户和产品评论中的情感倾向。
实际应用
在实际应用中,BRBT-dataset-pickles数据集可用于社交媒体监控、品牌声誉管理和政府公告的情感分析。例如,企业可以利用该数据集分析消费者对产品的评价,政府机构则可以评估公众对政策公告的反应。这些应用不仅有助于提升决策的精准性,还能促进跨语言情感分析技术的普及。
衍生相关工作
基于BRBT-dataset-pickles数据集,许多相关研究工作得以展开。例如,研究人员开发了针对孟加拉语和罗马化孟加拉语的深度学习模型,进一步提升了情感分类的准确性。此外,该数据集还激发了多语言情感分析工具的开发,为其他低资源语言的情感分析研究提供了参考和借鉴。
以上内容由遇见数据集搜集并总结生成



