coderchen01/MMSD2.0

Name: coderchen01/MMSD2.0
Creator: coderchen01
Published: 2024-05-02 12:03:47
License: 暂无描述

Hugging Face2024-05-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/coderchen01/MMSD2.0

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en license: unknown size_categories: - 10K<n<100K task_categories: - feature-extraction - text-classification - image-classification - image-feature-extraction - zero-shot-classification - zero-shot-image-classification pretty_name: multimodal-sarcasm-dataset tags: - sarcasm - sarcasm-detection - mulitmodal-sarcasm-detection - sarcasm detection - multimodao sarcasm detection - tweets dataset_info: - config_name: mmsd-original features: - name: image dtype: image - name: text dtype: string - name: label dtype: int64 - name: id dtype: string splits: - name: train num_bytes: 1816845826.384 num_examples: 19816 - name: validation num_bytes: 260077790.0 num_examples: 2410 - name: test num_bytes: 262679920.717 num_examples: 2409 download_size: 2690517598 dataset_size: 2339603537.101 - config_name: mmsd-v1 features: - name: image dtype: image - name: text dtype: string - name: label dtype: int64 - name: id dtype: string splits: - name: train num_bytes: 1797951865.232 num_examples: 19557 - name: validation num_bytes: 259504817.817 num_examples: 2387 - name: test num_bytes: 261609842.749 num_examples: 2373 download_size: 2668004199 dataset_size: 2319066525.798 - config_name: mmsd-v2 features: - name: image dtype: image - name: text dtype: string - name: label dtype: int64 - name: id dtype: string splits: - name: train num_bytes: 1816541209.384 num_examples: 19816 - name: validation num_bytes: 260043003.0 num_examples: 2410 - name: test num_bytes: 262641462.717 num_examples: 2409 download_size: 2690267623 dataset_size: 2339225675.101 configs: - config_name: mmsd-original data_files: - split: train path: mmsd-original/train-* - split: validation path: mmsd-original/validation-* - split: test path: mmsd-original/test-* - config_name: mmsd-v1 data_files: - split: train path: mmsd-v1/train-* - split: validation path: mmsd-v1/validation-* - split: test path: mmsd-v1/test-* - config_name: mmsd-v2 data_files: - split: train path: mmsd-v2/train-* - split: validation path: mmsd-v2/validation-* - split: test path: mmsd-v2/test-* --- # MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System This is a copy of the dataset uploaded on Hugging Face for easy access. The original data comes from this [work](https://aclanthology.org/2023.findings-acl.689/), which is an improvement upon a [previous study](https://aclanthology.org/P19-1239). ## Usage ```python from typing import TypedDict, cast import pytorch_lightning as pl from datasets import Dataset, load_dataset from torch import Tensor from torch.utils.data import DataLoader from transformers import CLIPProcessor class MMSDModelInput(TypedDict): pixel_values: Tensor input_ids: Tensor attention_mask: Tensor label: Tensor id: list[str] class MMSDDatasetModule(pl.LightningDataModule): def __init__( self, clip_ckpt_name: str = "openai/clip-vit-base-patch32", dataset_version: str = "mmsd-v2", max_length: int = 77, train_batch_size: int = 32, val_batch_size: int = 32, test_batch_size: int = 32, num_workers: int = 19, ) -> None: super().__init__() self.clip_ckpt_name = clip_ckpt_name self.dataset_version = dataset_version self.train_batch_size = train_batch_size self.val_batch_size = val_batch_size self.test_batch_size = test_batch_size self.num_workers = num_workers self.max_length = max_length def setup(self, stage: str) -> None: processor = CLIPProcessor.from_pretrained(self.clip_ckpt_name) def preprocess(example): inputs = processor( text=example["text"], images=example["image"], return_tensors="pt", padding="max_length", truncation=True, max_length=self.max_length, ) return { "pixel_values": inputs["pixel_values"], "input_ids": inputs["input_ids"], "attention_mask": inputs["attention_mask"], "label": example["label"], } self.raw_dataset = cast( Dataset, load_dataset("coderchen01/MMSD2.0", name=self.dataset_version), ) self.dataset = self.raw_dataset.map( preprocess, batched=True, remove_columns=["text", "image"], ) def train_dataloader(self) -> DataLoader: return DataLoader( self.dataset["train"], batch_size=self.train_batch_size, shuffle=True, num_workers=self.num_workers, ) def val_dataloader(self) -> DataLoader: return DataLoader( self.dataset["validation"], batch_size=self.val_batch_size, num_workers=self.num_workers, ) def test_dataloader(self) -> DataLoader: return DataLoader( self.dataset["test"], batch_size=self.test_batch_size, num_workers=self.num_workers, ) ``` ## References [1] Yitao Cai, Huiyu Cai, and Xiaojun Wan. 2019. Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 2506–2515, Florence, Italy. Association for Computational Linguistics. [2] Libo Qin, Shijue Huang, Qiguang Chen, Chenran Cai, Yudi Zhang, Bin Liang, Wanxiang Che, and Ruifeng Xu. 2023. MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System. In Findings of the Association for Computational Linguistics: ACL 2023, pages 10834–10845, Toronto, Canada. Association for Computational Linguistics.

language: - 英语（en） license: 未知 size_categories: - 10000 < 样本量 < 100000 task_categories: - 特征提取 - 文本分类 - 图像分类 - 图像特征提取 - 零样本分类（zero-shot-classification） - 零样本图像分类（zero-shot-image-classification） pretty_name: 多模态讽刺数据集（multimodal-sarcasm-dataset） tags: - 讽刺（sarcasm） - 讽刺检测（sarcasm-detection） - 多模态讽刺检测（multimodal-sarcasm-detection） - 讽刺检测（sarcasm detection） - 多模态讽刺检测（multimodal sarcasm detection） - 推文（tweets） dataset_info: - config_name: mmsd-original features: - name: 图像（image） dtype: 图像类型 - name: 文本（text） dtype: 字符串类型 - name: 标签（label） dtype: 64位整数类型 - name: 编号（id） dtype: 字符串类型 splits: - name: 训练集（train） num_bytes: 1816845826.384 num_examples: 19816 - name: 验证集（validation） num_bytes: 260077790.0 num_examples: 2410 - name: 测试集（test） num_bytes: 262679920.717 num_examples: 2409 download_size: 2690517598 dataset_size: 2339603537.101 - config_name: mmsd-v1 features: - name: 图像（image） dtype: 图像类型 - name: 文本（text） dtype: 字符串类型 - name: 标签（label） dtype: 64位整数类型 - name: 编号（id） dtype: 字符串类型 splits: - name: 训练集（train） num_bytes: 1797951865.232 num_examples: 19557 - name: 验证集（validation） num_bytes: 259504817.817 num_examples: 2387 - name: 测试集（test） num_bytes: 261609842.749 num_examples: 2373 download_size: 2668004199 dataset_size: 2319066525.798 - config_name: mmsd-v2 features: - name: 图像（image） dtype: 图像类型 - name: 文本（text） dtype: 字符串类型 - name: 标签（label） dtype: 64位整数类型 - name: 编号（id） dtype: 字符串类型 splits: - name: 训练集（train） num_bytes: 1816541209.384 num_examples: 19816 - name: 验证集（validation） num_bytes: 260043003.0 num_examples: 2410 - name: 测试集（test） num_bytes: 262641462.717 num_examples: 2409 download_size: 2690267623 dataset_size: 2339225675.101 configs: - config_name: mmsd-original data_files: - split: 训练集（train） path: mmsd-original/train-* - split: 验证集（validation） path: mmsd-original/validation-* - split: 测试集（test） path: mmsd-original/test-* - config_name: mmsd-v1 data_files: - split: 训练集（train） path: mmsd-v1/train-* - split: 验证集（validation） path: mmsd-v1/validation-* - split: 测试集（test） path: mmsd-v1/test-* - config_name: mmsd-v2 data_files: - split: 训练集（train） path: mmsd-v2/train-* - split: 验证集（validation） path: mmsd-v2/validation-* - split: 测试集（test） path: mmsd-v2/test-* # MMSD2.0：迈向可靠的多模态讽刺检测系统本数据集为上传至Hugging Face的副本，旨在便于获取。原始数据源自此项[研究](https://aclanthology.org/2023.findings-acl.689/)，该研究是对此前一项[研究](https://aclanthology.org/P19-1239)的改进。 ## 使用方法 python from typing import TypedDict, cast import pytorch_lightning as pl from datasets import Dataset, load_dataset from torch import Tensor from torch.utils.data import DataLoader from transformers import CLIPProcessor class MMSDModelInput(TypedDict): pixel_values: Tensor input_ids: Tensor attention_mask: Tensor label: Tensor id: list[str] class MMSDDatasetModule(pl.LightningDataModule): def __init__( self, clip_ckpt_name: str = "openai/clip-vit-base-patch32", dataset_version: str = "mmsd-v2", max_length: int = 77, train_batch_size: int = 32, val_batch_size: int = 32, test_batch_size: int = 32, num_workers: int = 19, ) -> None: super().__init__() self.clip_ckpt_name = clip_ckpt_name self.dataset_version = dataset_version self.train_batch_size = train_batch_size self.val_batch_size = val_batch_size self.test_batch_size = test_batch_size self.num_workers = num_workers self.max_length = max_length def setup(self, stage: str) -> None: processor = CLIPProcessor.from_pretrained(self.clip_ckpt_name) def preprocess(example): inputs = processor( text=example["text"], images=example["image"], return_tensors="pt", padding="max_length", truncation=True, max_length=self.max_length, ) return { "pixel_values": inputs["pixel_values"], "input_ids": inputs["input_ids"], "attention_mask": inputs["attention_mask"], "label": example["label"], } self.raw_dataset = cast( Dataset, load_dataset("coderchen01/MMSD2.0", name=self.dataset_version), ) self.dataset = self.raw_dataset.map( preprocess, batched=True, remove_columns=["text", "image"], ) def train_dataloader(self) -> DataLoader: return DataLoader( self.dataset["train"], batch_size=self.train_batch_size, shuffle=True, num_workers=self.num_workers, ) def val_dataloader(self) -> DataLoader: return DataLoader( self.dataset["validation"], batch_size=self.val_batch_size, num_workers=self.num_workers, ) def test_dataloader(self) -> DataLoader: return DataLoader( self.dataset["test"], batch_size=self.test_batch_size, num_workers=self.num_workers, ) ## 参考文献 [1] 蔡一涛, 蔡惠宇, 万小俊. 2019. 基于分层融合模型的Twitter多模态讽刺检测. 见：第57届国际计算语言学协会年会会议录, 意大利佛罗伦萨, 国际计算语言学协会, 第2506–2515页. [2] 秦立博, 黄诗珏, 陈启光, 蔡陈然, 张宇迪, 梁斌, 车万翔, 徐睿峰. 2023. MMSD2.0：迈向可靠的多模态讽刺检测系统. 见：国际计算语言学协会2023年研究发现, 加拿大多伦多, 国际计算语言学协会, 第10834–10845页.

提供机构：

coderchen01

原始信息汇总

数据集概述

基本信息

名称: multimodal-sarcasm-dataset
标签:
- sarcasm
- sarcasm-detection
- mulitmodal-sarcasm-detection
- sarcasm detection
- multimodao sarcasm detection
- tweets
任务类别:
- feature-extraction
- text-classification
- image-classification
- image-feature-extraction
- zero-shot-classification
- zero-shot-image-classification
大小范围: 10K<n<100K
语言: en
许可证: unknown

数据集配置

mmsd-original
- 特征:
  - image: dtype: image
  - text: dtype: string
  - label: dtype: int64
  - id: dtype: string
- 分割:
  - train: num_examples: 19816, num_bytes: 1816845826.384
  - validation: num_examples: 2410, num_bytes: 260077790.0
  - test: num_examples: 2409, num_bytes: 262679920.717
- 下载大小: 2690517598
- 数据集大小: 2339603537.101
mmsd-v1
- 特征:
  - image: dtype: image
  - text: dtype: string
  - label: dtype: int64
  - id: dtype: string
- 分割:
  - train: num_examples: 19557, num_bytes: 1797951865.232
  - validation: num_examples: 2387, num_bytes: 259504817.817
  - test: num_examples: 2373, num_bytes: 261609842.749
- 下载大小: 2668004199
- 数据集大小: 2319066525.798
mmsd-v2
- 特征:
  - image: dtype: image
  - text: dtype: string
  - label: dtype: int64
  - id: dtype: string
- 分割:
  - train: num_examples: 19816, num_bytes: 1816541209.384
  - validation: num_examples: 2410, num_bytes: 260043003.0
  - test: num_examples: 2409, num_bytes: 262641462.717
- 下载大小: 2690267623
- 数据集大小: 2339225675.101

数据文件配置

mmsd-original
- 训练数据: mmsd-original/train-*
- 验证数据: mmsd-original/validation-*
- 测试数据: mmsd-original/test-*
mmsd-v1
- 训练数据: mmsd-v1/train-*
- 验证数据: mmsd-v1/validation-*
- 测试数据: mmsd-v1/test-*
mmsd-v2
- 训练数据: mmsd-v2/train-*
- 验证数据: mmsd-v2/validation-*
- 测试数据: mmsd-v2/test-*

搜集汇总

数据集介绍

构建方式

MMSD2.0数据集构建于多模态讽刺检测领域，旨在提升讽刺检测的可靠性。该数据集通过整合文本和图像信息，构建了一个包含19,557条训练样本、2,387条验证样本和2,373条测试样本的多模态数据集。数据来源于社交媒体平台Twitter，经过严格的清洗和标注，确保了数据的质量和多样性。

使用方法

使用MMSD2.0数据集时，可以通过Hugging Face的`load_dataset`函数加载数据集，并结合CLIP处理器对文本和图像进行预处理。数据集支持多种任务，包括特征提取、文本分类、图像分类和零样本分类等。通过PyTorch Lightning框架，可以方便地构建数据加载器，进行模型的训练、验证和测试。数据集的多个版本和丰富的标注信息为多模态讽刺检测研究提供了强大的支持。

背景与挑战

背景概述

MMSD2.0数据集是一个专注于多模态讽刺检测的研究成果，由Libo Qin等研究人员在2023年提出，旨在提升讽刺检测系统的可靠性。该数据集基于Twitter平台，结合了文本和图像两种模态信息，以解决传统单模态讽刺检测方法的局限性。其前身MMSD1.0由Yitao Cai等人在2019年提出，通过层次融合模型在讽刺检测领域取得了显著进展。MMSD2.0的发布进一步推动了多模态讽刺检测技术的发展，为自然语言处理领域提供了重要的研究资源。

当前挑战

MMSD2.0数据集在解决多模态讽刺检测问题时面临多重挑战。首先，讽刺表达通常依赖于上下文和隐含语义，如何有效融合文本和图像信息以捕捉讽刺意图是一个核心难题。其次，数据集的构建过程中，标注的准确性和一致性至关重要，但讽刺的主观性使得标注工作复杂且易受偏差影响。此外，多模态数据的对齐和特征提取也带来了技术上的挑战，尤其是在处理大规模社交媒体数据时，如何平衡计算效率和模型性能仍需进一步探索。

常用场景

经典使用场景

MMSD2.0数据集在多模态讽刺检测领域具有广泛的应用。该数据集结合了文本和图像信息，能够有效捕捉讽刺表达中的多模态特征。研究人员通常利用该数据集训练和评估多模态讽刺检测模型，特别是在社交媒体平台如Twitter上的讽刺内容识别中，MMSD2.0提供了丰富的数据支持。

解决学术问题

MMSD2.0数据集解决了多模态讽刺检测中的关键问题，即如何有效融合文本和图像信息以提升讽刺识别的准确性。传统方法往往仅依赖单一模态数据，难以捕捉讽刺的复杂语义。该数据集通过提供大量标注的多模态数据，推动了多模态融合模型的发展，显著提升了讽刺检测的性能。

实际应用

在实际应用中，MMSD2.0数据集被广泛用于社交媒体内容审核和情感分析。通过识别讽刺内容，平台能够更精准地过滤不当言论，提升用户体验。此外，该数据集还可用于广告投放和用户行为分析，帮助企业更好地理解用户情感倾向，优化营销策略。

数据集最近研究