DocMSU

Name: DocMSU
Creator: 北京邮电大学
Published: 2023-12-26 20:24:14
License: 暂无描述

arXiv2023-12-26 更新2024-06-21 收录

下载链接：

https://github.com/Dulpy/DocMSU

下载链接

链接失效反馈

官方服务：

资源简介：

DocMSU是一个针对文档级多模态讽刺理解的综合基准数据集，由北京邮电大学创建。该数据集包含102,588条新闻，每条新闻包含文本和图像对，覆盖9个多样化的主题，如健康、商业等。数据集通过爬取知名新闻网站如‘纽约时报’和‘联合国新闻’收集，经过三轮人工标注，确保高质量的标注。DocMSU旨在解决新闻领域中讽刺理解的挑战，特别是在长文本中捕捉讽刺线索的问题，适用于情感分析、假新闻检测和公众舆论分析等领域。

DocMSU is a comprehensive benchmark dataset for document-level multimodal sarcasm understanding, created by Beijing University of Posts and Telecommunications. It contains 102,588 news articles, each paired with a text-image pair, covering 9 diverse topics such as health, business and others. The dataset was collected by crawling well-known news websites including The New York Times and UN News, and underwent three rounds of manual annotation to ensure high-quality labeling. DocMSU aims to address the challenges of sarcasm understanding in the news domain, particularly the difficulty of capturing sarcasm cues in long texts, and is applicable to fields including sentiment analysis, fake news detection and public opinion analysis.

提供机构：

北京邮电大学

创建时间：

2023-12-26

搜集汇总

数据集介绍

构建方式

在文档级多模态讽刺理解领域，现有数据集多局限于短文本，难以捕捉真实新闻场景中隐含的讽刺线索。为填补这一空白，DocMSU数据集通过从《纽约时报》和《联合国新闻》等权威新闻网站爬取新闻条目，构建了包含102,588个文本-图像对的大规模语料库。每个样本平均包含63个词符和5个句子，覆盖健康、商业等9个主题类别。为确保标注质量，研究团队采用三轮人工标注流程，由15名标注员对每个样本进行讽刺二分类标注，并平均标注2.7个文本跨度和视觉边界框作为讽刺线索定位，同时引入置信度评分机制以降低标注主观性带来的偏差。

特点

DocMSU数据集在文档级多模态讽刺理解研究中展现出显著特点。其文本长度显著超越现有句子级数据集，平均每篇文档包含多句子结构，更贴近真实新闻的篇幅与复杂性。数据覆盖九个多样化的主题领域，如环境、政治与科技，且每个主题包含建筑、动物等十类视觉对象，增强了跨模态特征的丰富性。数据标注不仅提供讽刺检测的二元标签，还精细标注了文本中的讽刺跨度与图像中的讽刺区域，为模型提供细粒度监督信号。此外，通过半人工标注流程与置信度评估，确保了标注的高质量与一致性，为模型训练提供了可靠的基础。

使用方法

DocMSU数据集支持文档级多模态讽刺理解的两项核心任务：讽刺检测与讽刺定位。在讽刺检测任务中，研究者可利用文本-图像对训练二分类模型，以判断新闻是否包含讽刺意图。对于讽刺定位任务，数据集中提供的文本跨度与视觉边界框标注可用于训练模型识别讽刺线索的具体位置。为应对文档级讽刺线索稀疏与跨模态对齐的挑战，论文提出了一种细粒度融合方法，将像素级图像特征与词级文本特征通过滑动窗口机制进行对齐，并采用Swin-Transformer进行深层融合。实验表明，该方法在检测与定位任务上均优于现有基线，可作为后续研究的基准模型。

背景与挑战

背景概述

在自然语言处理与多模态人工智能领域，讽刺理解作为情感分析与虚假信息检测的关键任务，长期面临数据稀缺与建模复杂性挑战。DocMSU数据集由北京邮电大学、浙江大学及新加坡南洋理工大学的研究团队于2023年共同构建，旨在填补文档级多模态讽刺理解研究的空白。该数据集聚焦于新闻领域的讽刺检测与定位问题，涵盖健康、商业、科技等九大主题，包含102,588条文本-图像对，平均每条新闻包含63个词汇与5个句子。通过半人工标注机制与多轮质量校验，DocMSU不仅提供了高质量的二元讽刺标签，还标注了文本片段与视觉边界框的细粒度讽刺线索，为真实场景下的多模态语义理解研究提供了重要基准。

当前挑战

DocMSU所针对的文档级多模态讽刺理解任务面临双重挑战：在领域问题层面，讽刺线索常以稀疏形式隐匿于长文本与图像细节中，例如仅通过个别词汇或微小图像区域传递反讽意图，要求模型具备跨模态的细粒度对齐与上下文推理能力；在数据构建层面，标注过程受限于讽刺表达的主观性与隐含性，缺乏明确的语言或视觉标记，导致标注一致性难以保障。研究团队通过引入多轮人工校验、置信度评分与新闻正文参考机制，部分缓解了标注歧义，但如何在大规模数据中保持标注精度与泛化性，仍是该数据集持续优化的核心议题。

常用场景

经典使用场景

在新闻领域的多模态讽刺理解研究中，DocMSU数据集为文档级讽刺检测与定位提供了关键支撑。该数据集涵盖健康、商业等九大主题，包含十万余条文本-图像对，其长文本结构与稀疏讽刺线索的特性，使得研究者能够深入探索跨句子边界的讽刺表达机制。经典应用场景包括开发基于细粒度特征对齐的模型，以捕捉文档中隐含的图文不一致性，从而提升讽刺理解的准确性与鲁棒性。

实际应用

在实际应用层面，DocMSU为新闻领域的多模态内容分析提供了重要工具。基于该数据集训练的模型可应用于社交媒体平台与新闻聚合网站，自动识别带有讽刺意图的新闻内容，辅助进行公众情绪监测与虚假信息筛查。例如，在公共舆论分析中，系统能够通过检测图文间的讽刺性差异，揭示新闻背后的潜在立场或误导性倾向，从而提升信息审核与内容推荐的智能化水平。

衍生相关工作

围绕DocMSU数据集，已衍生出一系列经典研究工作。原论文提出的细粒度讽刺理解方法，通过像素级图像特征与词级文本特征的对齐机制，为后续模型设计提供了基线框架。在此基础上，研究者进一步探索了基于滑动窗口的跨模态注意力机制、多尺度特征融合技术，以及结合大语言模型的讽刺解释生成方法，这些工作共同推动了文档级多模态讽刺理解在理论与应用层面的持续深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集