BNSENTMIX

Name: BNSENTMIX
Creator: 网络和数据分析组, 计算机科学与工程系, 伊斯兰科技大学, 达卡, 孟加拉国
Published: 2024-08-17 02:30:22
License: 暂无描述

arXiv2024-08-17 更新2024-08-21 收录

下载链接：

http://arxiv.org/abs/2408.08964v1

下载链接

链接失效反馈

官方服务：

资源简介：

BNSENTMIX是一个针对孟加拉语-英语代码混合文本的情感分析数据集，由伊斯兰科技大学的网络和数据分析组创建。该数据集包含20,000条样本，涵盖四种情感标签，数据来源于YouTube、Facebook和电子商务平台。数据集的创建过程包括数据抓取、过滤、清洗和标注，旨在解决代码混合文本情感分析的挑战。该数据集的应用领域包括社交媒体监控、客户反馈分析等，旨在提高对低资源语言如孟加拉语的理解和处理能力。

BNSENTMIX is a sentiment analysis dataset for Bengali-English code-mixed text, developed by the Network and Data Analysis Group of Islamic University of Technology. It contains 20,000 samples with four sentiment labels, and the data is sourced from YouTube, Facebook and e-commerce platforms. The dataset construction process includes data crawling, filtering, cleaning and annotation, which aims to address the challenges in sentiment analysis of code-mixed text. Its application areas include social media monitoring, customer feedback analysis and other fields, and it is designed to improve the understanding and processing capabilities of low-resource languages such as Bengali.

提供机构：

网络和数据分析组, 计算机科学与工程系, 伊斯兰科技大学, 达卡, 孟加拉国

创建时间：

2024-08-17

搜集汇总

数据集介绍

构建方式

BNSENTMIX数据集的构建采用了从YouTube评论、Facebook评论和电子商务网站评论中收集用户生成的内容。首先，从这些来源收集了超过300万个样本，然后使用预训练的语言模型进行代码混合检测，以确保数据集的语言纯洁性。之后，对数据进行清洗，包括去除少于四个词的样本、外部URL、特殊字符和emoji等。最后，对剩余的样本进行人工标注，以确定情感标签，确保了数据集的高质量。

特点

BNSENTMIX数据集的特点在于其多样性、大规模和公共可用性。数据集包含了从多个数据源收集的20,000个样本，具有4个情感标签，涵盖了正面、负面、中性和混合情感。此外，数据集还采用了14个基线方法，包括3个在代码混合的孟加拉语-英语上进一步预训练的新型Transformer编码器，实现了在情感分类任务上的69.8%的整体准确率和69.1%的F1分数。

使用方法

BNSENTMIX数据集的使用方法包括首先进行数据清洗和代码混合检测，然后进行人工标注以确定情感标签。在模型训练和评估过程中，数据集被分为训练集、验证集和测试集，以有效评估模型的性能。此外，数据集还提供了14个基线方法，包括传统机器学习模型、循环神经网络变体和基于Transformer的预训练语言模型，以供研究人员参考和使用。

背景与挑战

背景概述

在数字时代，混合语言（codemixing）在多语言社会中日益普遍。这种现象涉及到在单个对话或句子中交替使用两种或更多种语言。特别是在孟加拉语-英语混合文本的领域，尽管孟加拉语是全球第七大使用语言，拥有超过2.5亿的母语使用者，但在研究资源上仍然是一个低资源语言。为了解决孟加拉语-英语混合文本在情感分析方面的数据匮乏问题，研究人员Sadia Alam等人在伊斯兰大学的技术系网络与数据分析组创建了BNSENTMIX数据集。该数据集包含了从Facebook、YouTube和电子商务网站收集的20,000个样本，具有4种情感标签，旨在为情感分析提供多样化的现实场景。BNSENTMIX数据集的创建为低资源语言的情感分析研究提供了宝贵的资源，并推动了自然语言处理工具的发展，有助于更好地理解和处理混合语言。

当前挑战

BNSENTMIX数据集的创建和情感分析面临着一些挑战。首先，混合文本的复杂性给现有模型带来了困难。其次，现有的语言检测工具在过滤混合孟加拉语-英语文本时存在严重限制。此外，混合文本中的隐含词增加了处理的难度。为了解决这些挑战，研究人员提出了一个自动化的孟加拉语-英语混合文本检测方法，并使用预训练的语言模型进行高效的数据过滤。他们还建立了14个基线方法，包括3个新的Transformer编码器，这些编码器在混合孟加拉语-英语上进行了进一步的预训练，实现了情感分类任务的最佳性能。这些努力为解决混合文本的情感分析问题提供了新的思路和方法。

常用场景

经典使用场景

BNSENTMIX数据集主要用于情感分析任务，特别是在处理代码混合的孟加拉语-英语文本方面。该数据集的20,000个样本涵盖了4种情感标签，并从Facebook、YouTube和电子商务网站收集，以确保数据的多样性。这使得BNSENTMIX成为研究人员和开发人员开发情感分析模型，特别是针对低资源语言的模型的宝贵资源。

实际应用

BNSENTMIX数据集在实际应用中可以用于社交媒体监控、客户反馈分析、市场研究和公共舆论分析等。例如，社交媒体平台可以使用该数据集来分析用户评论的情感，从而更好地了解用户的反馈和情绪。电子商务网站可以使用该数据集来分析产品评论的情感，从而更好地了解产品的优缺点。此外，该数据集还可以用于开发智能客服系统，通过分析用户的情感来提供更个性化和有效的服务。

衍生相关工作

BNSENTMIX数据集的引入衍生了许多相关工作。例如，研究人员可以使用该数据集来开发针对代码混合孟加拉语-英语文本的情感分析模型，并通过与其他语言的情感分析模型进行比较来评估其性能。此外，该数据集还可以用于开发代码混合文本的识别和过滤工具，从而提高数据的质量和准确性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集