coderchen01/MMSD2.0
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/coderchen01/MMSD2.0
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
license: unknown
size_categories:
- 10K<n<100K
task_categories:
- feature-extraction
- text-classification
- image-classification
- image-feature-extraction
- zero-shot-classification
- zero-shot-image-classification
pretty_name: multimodal-sarcasm-dataset
tags:
- sarcasm
- sarcasm-detection
- mulitmodal-sarcasm-detection
- sarcasm detection
- multimodao sarcasm detection
- tweets
dataset_info:
- config_name: mmsd-original
features:
- name: image
dtype: image
- name: text
dtype: string
- name: label
dtype: int64
- name: id
dtype: string
splits:
- name: train
num_bytes: 1816845826.384
num_examples: 19816
- name: validation
num_bytes: 260077790.0
num_examples: 2410
- name: test
num_bytes: 262679920.717
num_examples: 2409
download_size: 2690517598
dataset_size: 2339603537.101
- config_name: mmsd-v1
features:
- name: image
dtype: image
- name: text
dtype: string
- name: label
dtype: int64
- name: id
dtype: string
splits:
- name: train
num_bytes: 1797951865.232
num_examples: 19557
- name: validation
num_bytes: 259504817.817
num_examples: 2387
- name: test
num_bytes: 261609842.749
num_examples: 2373
download_size: 2668004199
dataset_size: 2319066525.798
- config_name: mmsd-v2
features:
- name: image
dtype: image
- name: text
dtype: string
- name: label
dtype: int64
- name: id
dtype: string
splits:
- name: train
num_bytes: 1816541209.384
num_examples: 19816
- name: validation
num_bytes: 260043003.0
num_examples: 2410
- name: test
num_bytes: 262641462.717
num_examples: 2409
download_size: 2690267623
dataset_size: 2339225675.101
configs:
- config_name: mmsd-original
data_files:
- split: train
path: mmsd-original/train-*
- split: validation
path: mmsd-original/validation-*
- split: test
path: mmsd-original/test-*
- config_name: mmsd-v1
data_files:
- split: train
path: mmsd-v1/train-*
- split: validation
path: mmsd-v1/validation-*
- split: test
path: mmsd-v1/test-*
- config_name: mmsd-v2
data_files:
- split: train
path: mmsd-v2/train-*
- split: validation
path: mmsd-v2/validation-*
- split: test
path: mmsd-v2/test-*
---
# MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System
This is a copy of the dataset uploaded on Hugging Face for easy access. The original data comes from this [work](https://aclanthology.org/2023.findings-acl.689/), which is an improvement upon a [previous study](https://aclanthology.org/P19-1239).
## Usage
```python
from typing import TypedDict, cast
import pytorch_lightning as pl
from datasets import Dataset, load_dataset
from torch import Tensor
from torch.utils.data import DataLoader
from transformers import CLIPProcessor
class MMSDModelInput(TypedDict):
pixel_values: Tensor
input_ids: Tensor
attention_mask: Tensor
label: Tensor
id: list[str]
class MMSDDatasetModule(pl.LightningDataModule):
def __init__(
self,
clip_ckpt_name: str = "openai/clip-vit-base-patch32",
dataset_version: str = "mmsd-v2",
max_length: int = 77,
train_batch_size: int = 32,
val_batch_size: int = 32,
test_batch_size: int = 32,
num_workers: int = 19,
) -> None:
super().__init__()
self.clip_ckpt_name = clip_ckpt_name
self.dataset_version = dataset_version
self.train_batch_size = train_batch_size
self.val_batch_size = val_batch_size
self.test_batch_size = test_batch_size
self.num_workers = num_workers
self.max_length = max_length
def setup(self, stage: str) -> None:
processor = CLIPProcessor.from_pretrained(self.clip_ckpt_name)
def preprocess(example):
inputs = processor(
text=example["text"],
images=example["image"],
return_tensors="pt",
padding="max_length",
truncation=True,
max_length=self.max_length,
)
return {
"pixel_values": inputs["pixel_values"],
"input_ids": inputs["input_ids"],
"attention_mask": inputs["attention_mask"],
"label": example["label"],
}
self.raw_dataset = cast(
Dataset,
load_dataset("coderchen01/MMSD2.0", name=self.dataset_version),
)
self.dataset = self.raw_dataset.map(
preprocess,
batched=True,
remove_columns=["text", "image"],
)
def train_dataloader(self) -> DataLoader:
return DataLoader(
self.dataset["train"],
batch_size=self.train_batch_size,
shuffle=True,
num_workers=self.num_workers,
)
def val_dataloader(self) -> DataLoader:
return DataLoader(
self.dataset["validation"],
batch_size=self.val_batch_size,
num_workers=self.num_workers,
)
def test_dataloader(self) -> DataLoader:
return DataLoader(
self.dataset["test"],
batch_size=self.test_batch_size,
num_workers=self.num_workers,
)
```
## References
[1] Yitao Cai, Huiyu Cai, and Xiaojun Wan. 2019. Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 2506–2515, Florence, Italy. Association for Computational Linguistics.
[2] Libo Qin, Shijue Huang, Qiguang Chen, Chenran Cai, Yudi Zhang, Bin Liang, Wanxiang Che, and Ruifeng Xu. 2023. MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System. In Findings of the Association for Computational Linguistics: ACL 2023, pages 10834–10845, Toronto, Canada. Association for Computational Linguistics.
language:
- 英语(en)
license: 未知
size_categories:
- 10000 < 样本量 < 100000
task_categories:
- 特征提取
- 文本分类
- 图像分类
- 图像特征提取
- 零样本分类(zero-shot-classification)
- 零样本图像分类(zero-shot-image-classification)
pretty_name: 多模态讽刺数据集(multimodal-sarcasm-dataset)
tags:
- 讽刺(sarcasm)
- 讽刺检测(sarcasm-detection)
- 多模态讽刺检测(multimodal-sarcasm-detection)
- 讽刺检测(sarcasm detection)
- 多模态讽刺检测(multimodal sarcasm detection)
- 推文(tweets)
dataset_info:
- config_name: mmsd-original
features:
- name: 图像(image)
dtype: 图像类型
- name: 文本(text)
dtype: 字符串类型
- name: 标签(label)
dtype: 64位整数类型
- name: 编号(id)
dtype: 字符串类型
splits:
- name: 训练集(train)
num_bytes: 1816845826.384
num_examples: 19816
- name: 验证集(validation)
num_bytes: 260077790.0
num_examples: 2410
- name: 测试集(test)
num_bytes: 262679920.717
num_examples: 2409
download_size: 2690517598
dataset_size: 2339603537.101
- config_name: mmsd-v1
features:
- name: 图像(image)
dtype: 图像类型
- name: 文本(text)
dtype: 字符串类型
- name: 标签(label)
dtype: 64位整数类型
- name: 编号(id)
dtype: 字符串类型
splits:
- name: 训练集(train)
num_bytes: 1797951865.232
num_examples: 19557
- name: 验证集(validation)
num_bytes: 259504817.817
num_examples: 2387
- name: 测试集(test)
num_bytes: 261609842.749
num_examples: 2373
download_size: 2668004199
dataset_size: 2319066525.798
- config_name: mmsd-v2
features:
- name: 图像(image)
dtype: 图像类型
- name: 文本(text)
dtype: 字符串类型
- name: 标签(label)
dtype: 64位整数类型
- name: 编号(id)
dtype: 字符串类型
splits:
- name: 训练集(train)
num_bytes: 1816541209.384
num_examples: 19816
- name: 验证集(validation)
num_bytes: 260043003.0
num_examples: 2410
- name: 测试集(test)
num_bytes: 262641462.717
num_examples: 2409
download_size: 2690267623
dataset_size: 2339225675.101
configs:
- config_name: mmsd-original
data_files:
- split: 训练集(train)
path: mmsd-original/train-*
- split: 验证集(validation)
path: mmsd-original/validation-*
- split: 测试集(test)
path: mmsd-original/test-*
- config_name: mmsd-v1
data_files:
- split: 训练集(train)
path: mmsd-v1/train-*
- split: 验证集(validation)
path: mmsd-v1/validation-*
- split: 测试集(test)
path: mmsd-v1/test-*
- config_name: mmsd-v2
data_files:
- split: 训练集(train)
path: mmsd-v2/train-*
- split: 验证集(validation)
path: mmsd-v2/validation-*
- split: 测试集(test)
path: mmsd-v2/test-*
# MMSD2.0:迈向可靠的多模态讽刺检测系统
本数据集为上传至Hugging Face的副本,旨在便于获取。原始数据源自此项[研究](https://aclanthology.org/2023.findings-acl.689/),该研究是对此前一项[研究](https://aclanthology.org/P19-1239)的改进。
## 使用方法
python
from typing import TypedDict, cast
import pytorch_lightning as pl
from datasets import Dataset, load_dataset
from torch import Tensor
from torch.utils.data import DataLoader
from transformers import CLIPProcessor
class MMSDModelInput(TypedDict):
pixel_values: Tensor
input_ids: Tensor
attention_mask: Tensor
label: Tensor
id: list[str]
class MMSDDatasetModule(pl.LightningDataModule):
def __init__(
self,
clip_ckpt_name: str = "openai/clip-vit-base-patch32",
dataset_version: str = "mmsd-v2",
max_length: int = 77,
train_batch_size: int = 32,
val_batch_size: int = 32,
test_batch_size: int = 32,
num_workers: int = 19,
) -> None:
super().__init__()
self.clip_ckpt_name = clip_ckpt_name
self.dataset_version = dataset_version
self.train_batch_size = train_batch_size
self.val_batch_size = val_batch_size
self.test_batch_size = test_batch_size
self.num_workers = num_workers
self.max_length = max_length
def setup(self, stage: str) -> None:
processor = CLIPProcessor.from_pretrained(self.clip_ckpt_name)
def preprocess(example):
inputs = processor(
text=example["text"],
images=example["image"],
return_tensors="pt",
padding="max_length",
truncation=True,
max_length=self.max_length,
)
return {
"pixel_values": inputs["pixel_values"],
"input_ids": inputs["input_ids"],
"attention_mask": inputs["attention_mask"],
"label": example["label"],
}
self.raw_dataset = cast(
Dataset,
load_dataset("coderchen01/MMSD2.0", name=self.dataset_version),
)
self.dataset = self.raw_dataset.map(
preprocess,
batched=True,
remove_columns=["text", "image"],
)
def train_dataloader(self) -> DataLoader:
return DataLoader(
self.dataset["train"],
batch_size=self.train_batch_size,
shuffle=True,
num_workers=self.num_workers,
)
def val_dataloader(self) -> DataLoader:
return DataLoader(
self.dataset["validation"],
batch_size=self.val_batch_size,
num_workers=self.num_workers,
)
def test_dataloader(self) -> DataLoader:
return DataLoader(
self.dataset["test"],
batch_size=self.test_batch_size,
num_workers=self.num_workers,
)
## 参考文献
[1] 蔡一涛, 蔡惠宇, 万小俊. 2019. 基于分层融合模型的Twitter多模态讽刺检测. 见:第57届国际计算语言学协会年会会议录, 意大利佛罗伦萨, 国际计算语言学协会, 第2506–2515页.
[2] 秦立博, 黄诗珏, 陈启光, 蔡陈然, 张宇迪, 梁斌, 车万翔, 徐睿峰. 2023. MMSD2.0:迈向可靠的多模态讽刺检测系统. 见:国际计算语言学协会2023年研究发现, 加拿大多伦多, 国际计算语言学协会, 第10834–10845页.
提供机构:
coderchen01
原始信息汇总
数据集概述
基本信息
- 名称: multimodal-sarcasm-dataset
- 标签:
- sarcasm
- sarcasm-detection
- mulitmodal-sarcasm-detection
- sarcasm detection
- multimodao sarcasm detection
- tweets
- 任务类别:
- feature-extraction
- text-classification
- image-classification
- image-feature-extraction
- zero-shot-classification
- zero-shot-image-classification
- 大小范围: 10K<n<100K
- 语言: en
- 许可证: unknown
数据集配置
-
mmsd-original
- 特征:
- image: dtype: image
- text: dtype: string
- label: dtype: int64
- id: dtype: string
- 分割:
- train: num_examples: 19816, num_bytes: 1816845826.384
- validation: num_examples: 2410, num_bytes: 260077790.0
- test: num_examples: 2409, num_bytes: 262679920.717
- 下载大小: 2690517598
- 数据集大小: 2339603537.101
- 特征:
-
mmsd-v1
- 特征:
- image: dtype: image
- text: dtype: string
- label: dtype: int64
- id: dtype: string
- 分割:
- train: num_examples: 19557, num_bytes: 1797951865.232
- validation: num_examples: 2387, num_bytes: 259504817.817
- test: num_examples: 2373, num_bytes: 261609842.749
- 下载大小: 2668004199
- 数据集大小: 2319066525.798
- 特征:
-
mmsd-v2
- 特征:
- image: dtype: image
- text: dtype: string
- label: dtype: int64
- id: dtype: string
- 分割:
- train: num_examples: 19816, num_bytes: 1816541209.384
- validation: num_examples: 2410, num_bytes: 260043003.0
- test: num_examples: 2409, num_bytes: 262641462.717
- 下载大小: 2690267623
- 数据集大小: 2339225675.101
- 特征:
数据文件配置
-
mmsd-original
- 训练数据: mmsd-original/train-*
- 验证数据: mmsd-original/validation-*
- 测试数据: mmsd-original/test-*
-
mmsd-v1
- 训练数据: mmsd-v1/train-*
- 验证数据: mmsd-v1/validation-*
- 测试数据: mmsd-v1/test-*
-
mmsd-v2
- 训练数据: mmsd-v2/train-*
- 验证数据: mmsd-v2/validation-*
- 测试数据: mmsd-v2/test-*
搜集汇总
数据集介绍

构建方式
MMSD2.0数据集构建于多模态讽刺检测领域,旨在提升讽刺检测的可靠性。该数据集通过整合文本和图像信息,构建了一个包含19,557条训练样本、2,387条验证样本和2,373条测试样本的多模态数据集。数据来源于社交媒体平台Twitter,经过严格的清洗和标注,确保了数据的质量和多样性。
使用方法
使用MMSD2.0数据集时,可以通过Hugging Face的`load_dataset`函数加载数据集,并结合CLIP处理器对文本和图像进行预处理。数据集支持多种任务,包括特征提取、文本分类、图像分类和零样本分类等。通过PyTorch Lightning框架,可以方便地构建数据加载器,进行模型的训练、验证和测试。数据集的多个版本和丰富的标注信息为多模态讽刺检测研究提供了强大的支持。
背景与挑战
背景概述
MMSD2.0数据集是一个专注于多模态讽刺检测的研究成果,由Libo Qin等研究人员在2023年提出,旨在提升讽刺检测系统的可靠性。该数据集基于Twitter平台,结合了文本和图像两种模态信息,以解决传统单模态讽刺检测方法的局限性。其前身MMSD1.0由Yitao Cai等人在2019年提出,通过层次融合模型在讽刺检测领域取得了显著进展。MMSD2.0的发布进一步推动了多模态讽刺检测技术的发展,为自然语言处理领域提供了重要的研究资源。
当前挑战
MMSD2.0数据集在解决多模态讽刺检测问题时面临多重挑战。首先,讽刺表达通常依赖于上下文和隐含语义,如何有效融合文本和图像信息以捕捉讽刺意图是一个核心难题。其次,数据集的构建过程中,标注的准确性和一致性至关重要,但讽刺的主观性使得标注工作复杂且易受偏差影响。此外,多模态数据的对齐和特征提取也带来了技术上的挑战,尤其是在处理大规模社交媒体数据时,如何平衡计算效率和模型性能仍需进一步探索。
常用场景
经典使用场景
MMSD2.0数据集在多模态讽刺检测领域具有广泛的应用。该数据集结合了文本和图像信息,能够有效捕捉讽刺表达中的多模态特征。研究人员通常利用该数据集训练和评估多模态讽刺检测模型,特别是在社交媒体平台如Twitter上的讽刺内容识别中,MMSD2.0提供了丰富的数据支持。
解决学术问题
MMSD2.0数据集解决了多模态讽刺检测中的关键问题,即如何有效融合文本和图像信息以提升讽刺识别的准确性。传统方法往往仅依赖单一模态数据,难以捕捉讽刺的复杂语义。该数据集通过提供大量标注的多模态数据,推动了多模态融合模型的发展,显著提升了讽刺检测的性能。
实际应用
在实际应用中,MMSD2.0数据集被广泛用于社交媒体内容审核和情感分析。通过识别讽刺内容,平台能够更精准地过滤不当言论,提升用户体验。此外,该数据集还可用于广告投放和用户行为分析,帮助企业更好地理解用户情感倾向,优化营销策略。
数据集最近研究
最新研究方向
在社交媒体分析领域,多模态讽刺检测(Multimodal Sarcasm Detection)正逐渐成为研究热点。MMSD2.0数据集作为该领域的重要资源,结合了文本和图像信息,为讽刺检测提供了更为丰富的上下文。近年来,研究者们通过引入深度学习模型,如CLIP和Transformer架构,显著提升了讽刺检测的准确性和鲁棒性。特别是在零样本分类和图像特征提取任务中,MMSD2.0的应用展示了其在跨模态理解中的潜力。随着社交媒体内容的多样化,多模态讽刺检测不仅有助于理解用户情感,还为虚假信息识别和情感分析提供了新的视角。
以上内容由遇见数据集搜集并总结生成



