BRBT-dataset-pickles

github2017-03-21 更新2024-05-31 收录

下载链接：

https://github.com/robi56/BRBT-dataset-pickles

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含9337个Bangla文本样本的数据集，用于情感分析模型。数据集独特之处在于它还包含了迄今为止被忽视的罗马化Bangla文本。罗马化Bangla是用英文字母书写的Bangla，由于使用标准QWERTY键盘书写的便利性和使用英语作为基础语言的简单性，罗马化Bangla不仅在个人消息和微博客中流行，也在政府批准的大众消息/公告中流行。

This dataset comprises 9,337 Bangla text samples designed for sentiment analysis models. Its uniqueness lies in the inclusion of Romanized Bangla text, which has been largely overlooked until now. Romanized Bangla refers to Bangla written using the English alphabet. Due to the convenience of typing on standard QWERTY keyboards and the simplicity of using English as the base language, Romanized Bangla has gained popularity not only in personal messages and microblogging but also in government-approved mass messages/announcements.

创建时间：

2017-03-21

原始信息汇总

BRBT-dataset-pickles 数据集概述

数据统计

总帖子数：9337
孟加拉语帖子数：6698
罗马化孟加拉语帖子数：2639

数据来源

Facebook：4621
Twitter：2610
YouTube：801
在线新闻门户：1255
产品评论页面：50

数据处理

移除表情符号和话题标签：为了提供无偏见的纯文本内容，移除了表情符号和话题标签。
替换专有名词：专有名词被替换为 <PN> 标签，以增加模糊性。
人工验证：数据样本由两位不同的孟加拉语母语者独立手动标注为正面的（1）、负面的（0）或模糊的（A）。

数据集访问

当前状态：数据集（xlsx文件）目前不公开，但可通过电子邮件直接联系作者获取。

搜集汇总

数据集介绍

构建方式

BRBT-dataset-pickles数据集的构建，源于对微博客网站如Facebook、Twitter、YouTube等，以及在线新闻门户和产品评论面板的广泛数据采集。数据经过严格的预处理，包括移除表情符号和专有名词，并由母语为孟加拉语的人士进行手动标注，确保了标注的质量和一致性。

使用方法

用户可通过电子邮件联系作者以获取数据集的使用权限。数据集以pickle文件格式存储，便于直接输入至神经网络模型进行情感分析。需要注意的是，数据集的xlsx文件目前并未公开，但可通过个人联系作者的方式获取。

背景与挑战

背景概述

BRBT-dataset-pickles数据集是在一项正在进行的研究论文工作中产生的，该工作由作者及其合作者共同开展。该数据集的创建旨在为情感分析提供一种基于神经网络模型的预处理数据，主要针对孟加拉语及其罗马化形式。此项工作尚未发表，但可通过arXiv平台查阅相关细节。数据集包含了9337条孟加拉语文本样本，其中不仅包括传统的孟加拉语，还首次将罗马化孟加拉语纳入研究范畴，这一特点使其在相关研究领域中具有重要价值。数据来源于Facebook、Twitter、YouTube等社交媒体平台及在线新闻门户和产品评论页面，经过严格的文本预处理和人工标注，为情感分析研究提供了可靠的数据基础。

当前挑战

该数据集在构建过程中面临的挑战主要包括：一是情感分析中罗马化孟加拉语的处理，由于其使用英文键盘输入，易与英文混淆，为文本分析带来困难；二是数据集中的文本预处理，包括去除表情符号和专有名词，以减少标注偏差，保证标注质量；三是人工标注过程中的一致性保证，需要通过双重独立标注和后续的协调来解决标注分歧。此外，数据集的获取方式限制了其公开性和可用性，为研究者的数据访问带来了一定的挑战。

常用场景

经典使用场景

BRBT-dataset-pickles作为情感分析领域的重要资源，其经典使用场景主要集中于深度学习模型训练。该数据集经过精心处理，包含了9337条文本样本，覆盖了孟加拉语及其罗马化形式，为神经网络模型提供了丰富的训练素材，以便能够准确地进行情感分类，从而提升模型的预测能力。

解决学术问题

该数据集有效解决了情感分析研究中，尤其是在处理低资源语言如孟加拉语时面临的样本不足、标注不一致等问题。通过去除表情符号和专有名词以及由母语者进行的手动标注，BRBT-dataset-pickles提高了数据标注的质量和一致性，进而促进了学术研究中情感分析模型的准确性和可靠性。

实际应用

在实际应用中，BRBT-dataset-pickles可用于社交媒体分析、市场情绪监测以及公共舆论研究等领域。其罗马化孟加拉语数据的独特性使得该数据集在政府公告、个人通信等场景中具有广泛的应用价值，有助于提升信息处理和情感分析的相关技术。

数据集最近研究