ViMMSD dataset

github2024-11-13 更新2024-11-28 收录

下载链接：

https://github.com/BFCmath/Data-Science-Challenge-UIT-2024

下载链接

链接失效反馈

官方服务：

资源简介：

ViMMSD数据集用于多模态讽刺检测，包含越南社交媒体上的文本和图像帖子。数据集分为训练集、开发集和测试集，标签包括多重讽刺、非讽刺、图像讽刺和文本讽刺。

The ViMMSD dataset is developed for multimodal sarcasm detection, encompassing text and image posts from Vietnamese social media platforms. The dataset is partitioned into training, development, and test sets, with its annotation labels covering four categories: multiple sarcasm, non-sarcasm, image sarcasm, and text sarcasm.

创建时间：

2024-11-11

原始信息汇总

数据集概述

数据集信息

名称: ViMMSD
任务: 多模态讽刺检测（Multimodal Sarcasm Detection）
语言: 越南语
数据来源: 越南社交媒体文本和图像
标签:
- multi-sarcasm
- not-sarcasm
- image-sarcasm
- text-sarcasm

数据集结构

训练集: 10,805个实例
- not-sarcasm: 6062个
- multi-sarcasm: 4224个
- text-sarcasm: 77个
- image-sarcasm: 442个
测试集:
- 公开测试集: 1413个实例
- 私有测试集: 1504个实例

数据集下载

下载方式:
- 通过Kaggle搜索“DSC”
- 或通过请求获取

评估标准

评估指标:
- 精确率（Precision）
- 召回率（Recall）
- F1分数（F1 score）
排名依据: F1分数

使用条件

允许使用的数据集: 仅限ViMMSD数据集
数据处理限制:
- 不得手动标注公开和私有测试数据
- 不得进行数据增强
允许的预训练模型: 仅限批准列表中的预训练模型
报告要求: 必须报告使用的预训练嵌入和语言模型

搜集汇总

数据集介绍

构建方式

ViMMSD数据集的构建聚焦于越南社交媒体上的多模态讽刺检测任务。该数据集从社交媒体平台收集了结合文本和图像的帖子，并进行了标注。标注类别包括'multi-sarcasm'、'not-sarcasm'、'image-sarcasm'和'text-sarcasm'，形成了一个不平衡的数据集。训练集包含10,805个实例，测试集则分为公开测试和私有测试，分别包含1,413和1,504个实例。数据集的构建旨在为多模态讽刺检测提供一个标准化的评估基准。

特点

ViMMSD数据集的主要特点在于其多模态性质和特定于越南社交媒体的内容。数据集包含了文本和图像的组合，这为研究多模态学习提供了丰富的资源。此外，数据集的不平衡性也是一个显著特点，这要求模型在处理不同类别的讽刺时具有高度的鲁棒性。数据集的标注精细，涵盖了多种讽刺类型，为研究者提供了深入分析和模型优化的机会。

使用方法

使用ViMMSD数据集时，研究者可以采用多种多模态模型进行讽刺检测。例如，ViLT模型通过结合图像和文本信息进行训练，而Vintern模型则利用预训练的视觉语言模型进行微调。研究者还可以探索多标签分类和One-vs-All等方法，以提高模型的分类性能。数据集的公开测试和私有测试部分为模型评估提供了标准化的基准，确保研究结果的可重复性和可比性。

背景与挑战

背景概述

ViMMSD数据集由DSC UIT 2024挑战赛中的Group B团队创建，专注于越南社交媒体文本的多模态讽刺检测。该数据集的构建旨在解决在越南社交媒体平台上，结合文本和图像的讽刺检测问题。主要研究人员或机构通过收集和标注大量越南社交媒体数据，创建了包含10,805个训练实例和2,917个测试实例的数据集。该数据集的核心研究问题是如何有效地识别和分类多模态内容中的讽刺表达，这对于提高社交媒体内容分析的准确性和用户体验具有重要意义。

当前挑战

ViMMSD数据集面临的挑战主要集中在多模态讽刺检测的复杂性和数据集的不平衡性。首先，讽刺检测本身就是一个具有挑战性的任务，尤其是在多模态环境中，需要同时处理文本和图像信息。其次，数据集的类别分布不平衡，特别是`text-sarcasm`和`image-sarcasm`类别的实例较少，这增加了模型训练的难度。此外，构建过程中遇到的挑战还包括如何有效地分割训练和验证数据，以确保模型在不同数据集上的泛化能力。

常用场景

经典使用场景

ViMMSD数据集的经典使用场景主要集中在多模态讽刺检测任务上。该数据集收集了越南社交媒体上的文本和图像，旨在通过结合文本和视觉信息来识别讽刺内容。研究者们通常采用多模态模型，如ViLT和VinTern，对这些数据进行训练和验证，以提高讽刺检测的准确性。通过这种方式，数据集不仅能够帮助模型理解文本中的讽刺，还能识别图像中的讽刺元素，从而实现更全面的多模态讽刺检测。

衍生相关工作

ViMMSD数据集的发布催生了一系列相关研究工作。例如，基于该数据集的多模态讽刺检测模型ViLT和VinTern，不仅在学术界引起了广泛关注，还激发了更多关于多模态学习的研究。此外，数据集的不平衡性问题也促使研究者开发了多种新的分类策略，如多标签分类和一对其余方法，这些方法在其他多模态任务中也得到了应用。总的来说，ViMMSD数据集为多模态学习和讽刺检测领域提供了宝贵的资源和研究方向。

数据集最近研究