Uddessho
收藏arXiv2024-09-15 更新2024-09-18 收录
下载链接:
https://data.mendeley.com/datasets/mzxmt8tfjs/1
下载链接
链接失效反馈官方服务:
资源简介:
Uddessho数据集由艾哈迈德·沙希德·苏赫拉瓦尔迪大学创建,专门用于低资源孟加拉语中的多模态作者意图分类。该数据集包含3048条从社交媒体平台(如Facebook、X和Instagram)收集的帖子,涵盖六个类别:信息性、倡导性、推广性、展示性、表达性和争议性。数据集的创建过程包括手动收集和标注,确保了数据的质量和一致性。该数据集主要用于解决在低资源语言环境中,通过结合文本和图像信息来准确分类作者意图的问题。
The Uddessho dataset was developed by Ahmed Shahid Suhrawardy University, specifically tailored for multimodal author intent classification in low-resource Bengali. It contains 3048 posts collected from social media platforms including Facebook, X, and Instagram, covering six categories: informative, advocacy, promotional, demonstrative, expressive, and controversial. The dataset construction process includes manual collection and annotation, which ensures the quality and consistency of the data. This dataset is primarily used to address the challenge of accurate author intent classification by combining textual and visual information in low-resource language environments.
提供机构:
艾哈迈德·沙希德·苏赫拉瓦尔迪大学
创建时间:
2024-09-15
搜集汇总
数据集介绍

构建方式
Uddessho数据集的构建过程始于对社交媒体平台(如Facebook、X和Instagram)上高互动度和多样化内容的精选。研究团队手动收集了3,048个包含文本和图像的Bangla语言社交媒体帖子,这些帖子涵盖了个人更新、食品评论、体育、政治新闻、娱乐、旅游、技术和促销内容等多个主题。数据集的构建不仅关注内容的多样性,还特别强调了作者意图的分类,定义了六个类别:Informative、Advocative、Promotive、Exhibitionist、Expressive和Controversial。通过严格的标注指南和质量控制措施,确保了数据集的高质量和一致性。
特点
Uddessho数据集的显著特点在于其多模态性和低资源语言的针对性。该数据集不仅包含文本信息,还结合了图像数据,使得研究者能够探索文本与视觉信息在作者意图分类中的交互作用。此外,数据集的构建考虑到了Bangla语言的特殊性,特别是在社交媒体环境中,作者的意图往往通过复杂的文本和视觉组合来表达。这种多模态的融合方法为低资源语言的意图分类提供了新的视角和工具。
使用方法
Uddessho数据集的使用方法多样,适用于多种自然语言处理和计算机视觉任务。研究者可以利用该数据集进行文本分类、图像识别以及多模态融合分析。具体而言,可以通过预训练的语言模型(如mBERT、DistilBERT和XLM-RoBERTa)提取文本特征,同时利用多种卷积神经网络(如ResNet和DenseNet)提取图像特征。结合早期融合和晚期融合技术,可以有效地提升作者意图分类的准确性。此外,数据集的公开访问性也促进了学术界和工业界的广泛应用和进一步研究。
背景与挑战
背景概述
在数字通信时代,理解文本内容背后的意图变得愈发重要,特别是在用户表达广泛思想和情感的社交媒体环境中。Uddessho数据集由Ahsanullah University of Science and Technology的研究团队创建,旨在解决低资源语言(如孟加拉语)中的多模态作者意图分类问题。该数据集包含3,048个从社交媒体平台收集的实例,涵盖六个类别:信息性、倡导性、推广性、展示性、表达性和争议性。Uddessho数据集的创建标志着在孟加拉语社交媒体内容中进行多模态意图分类的首个研究工作,其方法结合了文本和图像分析,以捕捉隐藏的意图,特别是在作者特征与意图紧密关联的社交帖子中。
当前挑战
Uddessho数据集面临的挑战主要集中在低资源语言的复杂性和多模态数据融合的难度上。首先,孟加拉语作为一种低资源语言,其语言变体和方言的多样性增加了意图分类的复杂性。其次,多模态数据(文本和图像)的融合需要克服不同模态间的语义鸿沟,确保模型能够准确捕捉和整合来自不同来源的信息。此外,数据集的构建过程中,如何确保标注的一致性和质量也是一个重要挑战。尽管Uddessho数据集在多模态意图分类方面取得了显著进展,但仍需进一步研究以提升模型在复杂和模糊内容中的表现,并探索更先进的融合技术以提高意图识别的准确性。
常用场景
经典使用场景
在多模态作者意图分类领域,Uddessho数据集的经典应用场景主要集中在社交媒体平台的帖子分析。通过结合文本和图像数据,该数据集能够深入解析用户在社交平台上表达的意图,如信息分享、情感表达、争议性讨论等。这种多模态分析方法不仅提升了意图分类的准确性,还为理解低资源语言如孟加拉语的复杂社交互动提供了新的视角。
解决学术问题
Uddessho数据集解决了在低资源语言环境中进行多模态作者意图分类的学术难题。传统方法主要依赖于单一文本模态,难以捕捉多模态内容中的复杂意图。该数据集通过引入多模态融合技术,显著提高了意图分类的准确性,为自然语言处理和计算机视觉领域的研究提供了新的工具和方法,推动了相关领域的发展。
衍生相关工作
Uddessho数据集的发布催生了一系列相关研究工作,特别是在多模态学习和意图分类领域。例如,研究者们基于该数据集开发了多种融合技术,如早期融合和晚期融合,以提升分类性能。此外,该数据集还激发了对低资源语言处理技术的深入研究,推动了跨语言和跨模态学习模型的发展,为未来的多模态数据分析提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成



