coderchen01/MMSD2.0|多模态讽刺检测数据集|自然语言处理数据集

hugging_face2024-05-02 更新2024-06-12 收录

多模态讽刺检测

自然语言处理

下载链接：

https://hf-mirror.com/datasets/coderchen01/MMSD2.0

下载链接

链接失效反馈

资源简介：

多模态讽刺检测数据集（MMSD）是一个包含图像和文本数据的数据集，主要用于训练和评估多模态讽刺检测系统。数据集包含多个版本，每个版本都有训练、验证和测试分割，以及相应的下载和数据集大小。数据集适用于多种任务，如特征提取、文本分类、图像分类等，特别关注于讽刺检测领域。

提供机构：

coderchen01

原始信息汇总

数据集概述

基本信息

名称: multimodal-sarcasm-dataset
标签:
- sarcasm
- sarcasm-detection
- mulitmodal-sarcasm-detection
- sarcasm detection
- multimodao sarcasm detection
- tweets
任务类别:
- feature-extraction
- text-classification
- image-classification
- image-feature-extraction
- zero-shot-classification
- zero-shot-image-classification
大小范围: 10K<n<100K
语言: en
许可证: unknown

数据集配置

mmsd-original
- 特征:
  - image: dtype: image
  - text: dtype: string
  - label: dtype: int64
  - id: dtype: string
- 分割:
  - train: num_examples: 19816, num_bytes: 1816845826.384
  - validation: num_examples: 2410, num_bytes: 260077790.0
  - test: num_examples: 2409, num_bytes: 262679920.717
- 下载大小: 2690517598
- 数据集大小: 2339603537.101
mmsd-v1
- 特征:
  - image: dtype: image
  - text: dtype: string
  - label: dtype: int64
  - id: dtype: string
- 分割:
  - train: num_examples: 19557, num_bytes: 1797951865.232
  - validation: num_examples: 2387, num_bytes: 259504817.817
  - test: num_examples: 2373, num_bytes: 261609842.749
- 下载大小: 2668004199
- 数据集大小: 2319066525.798
mmsd-v2
- 特征:
  - image: dtype: image
  - text: dtype: string
  - label: dtype: int64
  - id: dtype: string
- 分割:
  - train: num_examples: 19816, num_bytes: 1816541209.384
  - validation: num_examples: 2410, num_bytes: 260043003.0
  - test: num_examples: 2409, num_bytes: 262641462.717
- 下载大小: 2690267623
- 数据集大小: 2339225675.101

数据文件配置

mmsd-original
- 训练数据: mmsd-original/train-*
- 验证数据: mmsd-original/validation-*
- 测试数据: mmsd-original/test-*
mmsd-v1
- 训练数据: mmsd-v1/train-*
- 验证数据: mmsd-v1/validation-*
- 测试数据: mmsd-v1/test-*
mmsd-v2
- 训练数据: mmsd-v2/train-*
- 验证数据: mmsd-v2/validation-*
- 测试数据: mmsd-v2/test-*

AI搜集汇总

数据集介绍

构建方式

MMSD2.0数据集构建于多模态讽刺检测领域，旨在提升讽刺检测的可靠性。该数据集通过整合文本和图像信息，构建了一个包含19,557条训练样本、2,387条验证样本和2,373条测试样本的多模态数据集。数据来源于社交媒体平台Twitter，经过严格的清洗和标注，确保了数据的质量和多样性。

使用方法

使用MMSD2.0数据集时，可以通过Hugging Face的`load_dataset`函数加载数据集，并结合CLIP处理器对文本和图像进行预处理。数据集支持多种任务，包括特征提取、文本分类、图像分类和零样本分类等。通过PyTorch Lightning框架，可以方便地构建数据加载器，进行模型的训练、验证和测试。数据集的多个版本和丰富的标注信息为多模态讽刺检测研究提供了强大的支持。

背景与挑战

背景概述

MMSD2.0数据集是一个专注于多模态讽刺检测的研究成果，由Libo Qin等研究人员在2023年提出，旨在提升讽刺检测系统的可靠性。该数据集基于Twitter平台，结合了文本和图像两种模态信息，以解决传统单模态讽刺检测方法的局限性。其前身MMSD1.0由Yitao Cai等人在2019年提出，通过层次融合模型在讽刺检测领域取得了显著进展。MMSD2.0的发布进一步推动了多模态讽刺检测技术的发展，为自然语言处理领域提供了重要的研究资源。

当前挑战

MMSD2.0数据集在解决多模态讽刺检测问题时面临多重挑战。首先，讽刺表达通常依赖于上下文和隐含语义，如何有效融合文本和图像信息以捕捉讽刺意图是一个核心难题。其次，数据集的构建过程中，标注的准确性和一致性至关重要，但讽刺的主观性使得标注工作复杂且易受偏差影响。此外，多模态数据的对齐和特征提取也带来了技术上的挑战，尤其是在处理大规模社交媒体数据时，如何平衡计算效率和模型性能仍需进一步探索。

常用场景

经典使用场景

MMSD2.0数据集在多模态讽刺检测领域具有广泛的应用。该数据集结合了文本和图像信息，能够有效捕捉讽刺表达中的多模态特征。研究人员通常利用该数据集训练和评估多模态讽刺检测模型，特别是在社交媒体平台如Twitter上的讽刺内容识别中，MMSD2.0提供了丰富的数据支持。

解决学术问题

MMSD2.0数据集解决了多模态讽刺检测中的关键问题，即如何有效融合文本和图像信息以提升讽刺识别的准确性。传统方法往往仅依赖单一模态数据，难以捕捉讽刺的复杂语义。该数据集通过提供大量标注的多模态数据，推动了多模态融合模型的发展，显著提升了讽刺检测的性能。

实际应用

在实际应用中，MMSD2.0数据集被广泛用于社交媒体内容审核和情感分析。通过识别讽刺内容，平台能够更精准地过滤不当言论，提升用户体验。此外，该数据集还可用于广告投放和用户行为分析，帮助企业更好地理解用户情感倾向，优化营销策略。

数据集最近研究

最新研究方向

在社交媒体分析领域，多模态讽刺检测（Multimodal Sarcasm Detection）正逐渐成为研究热点。MMSD2.0数据集作为该领域的重要资源，结合了文本和图像信息，为讽刺检测提供了更为丰富的上下文。近年来，研究者们通过引入深度学习模型，如CLIP和Transformer架构，显著提升了讽刺检测的准确性和鲁棒性。特别是在零样本分类和图像特征提取任务中，MMSD2.0的应用展示了其在跨模态理解中的潜力。随着社交媒体内容的多样化，多模态讽刺检测不仅有助于理解用户情感，还为虚假信息识别和情感分析提供了新的视角。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

鄱阳湖流域主要水文站实时日水位观测数据集（2017-2024年）

该数据集为鄱阳湖流域主要水文站的逐日实时水位数据集。包含了外洲站、李家渡站、湖口站、星子站、万家埠站、都昌等10个主要水文站的日水位数据，观测时间为每日8：00。共享政策为一次可共享3000条数据，一个站点的一日数据为一条记录，一年可申请一次。数据集包含1个excel表格文件，日水位.xlsx。

国家地球系统科学数据中心收录