MuSaG

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/sc0ttypee/MuSaG

下载链接

链接失效反馈

官方服务：

资源简介：

MuSaG是一个德语的多模态讽刺检测数据集，包含33分钟的从德国电视节目中手工挑选和人工注释的声明，每个实例都提供了对齐的文本、音频和视频模态，并包含人工的讽刺标签。

创建时间：

2025-10-25

原始信息汇总

MuSaG数据集概述

基本信息

数据集名称: MuSaG
许可证: Creative Commons Attribution-NonCommercial 2.0 (CC-BY-NC-2.0)
任务类别: 零样本分类
语言: 德语
数据类型: 多模态（音频、视频、文本）
主题标签: 讽刺、讽刺检测、多模态、语音
数据规模: 小于1K样本

数据集描述

MuSaG是首个德语多模态讽刺检测数据集，包含从德国电视节目中手动选取并人工标注的33分钟语句。每个实例提供对齐的文本、音频和视频模态，分别由人工单独标注，支持单模态和多模态设置下的评估。

数据构成

样本数量: 214个元素
模态特征:
- 对齐的音频、视频
- 人工审核的自动生成转录文本
标注方式:
- 通过多数投票进行讽刺标签标注
- 提供每个标注者的独立标注
- 包含针对孤立文本、音频和视频模态的特定模态标注

研究价值

支持多模态讽刺检测研究
支持人机对齐研究
提供人类感知与模型性能的跨模态分析比较

基准测试

在9个开源和商业模型上进行了基准测试，涵盖文本、音频、视觉和多模态架构。结果显示：

人类在对话设置中主要依赖音频线索
模型在文本模态上表现最佳
揭示了当前多模态模型与现实场景之间的差距

引用信息

bibtex @misc{scott2025musagmultimodalgermansarcasm, title={MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations}, author={Aaron Scott and Maike Züfle and Jan Niehues}, year={2025}, eprint={2510.24178}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.24178}, }

搜集汇总

数据集介绍

构建方式

在讽刺检测研究领域，MuSaG数据集的构建采用了严谨的多模态采集方法。研究团队从德国电视节目中精心筛选出33分钟的语料，通过人工标注的方式对每个实例进行多维度标注。每个数据样本均包含对齐的文本、音频和视频三种模态，其中文本部分采用自动生成后人工审核的转录方式，所有讽刺标签均通过多位标注者的多数投票机制确定，确保了标注质量的可靠性。

特点

作为首个德语多模态讽刺检测数据集，MuSaG展现出独特的跨模态特性。该数据集包含214个完整样本，每个样本均提供独立的文本、音频和视频模态标注，支持单模态与多模态的对比研究。特别值得注意的是，数据集不仅提供最终聚合标签，还保留了每位标注者的独立标注结果，这种设计为研究人类感知差异与模型性能对比提供了宝贵的数据基础。

使用方法

在多模态自然语言处理研究中，MuSaG数据集为讽刺检测任务提供了灵活的应用框架。研究者可利用该数据集进行跨模态对比实验，通过独立的模态标注分析不同模态对讽刺检测的贡献度。数据集支持从单模态到多模态的渐进式研究路径，既可评估纯文本模型的性能，也能探索音频和视觉线索的融合策略，为开发更贴近人类感知的多模态模型奠定实验基础。

背景与挑战

背景概述

在自然语言处理领域，反讽作为一种复杂的修辞形式，其字面含义与实际意图相悖的特性持续挑战着情感分析与内容审核系统的性能。随着多模态大语言模型的发展，反讽检测已从纯文本分析扩展到需要整合音频与视觉线索的综合认知阶段。MuSaG作为首个德语多模态反讽检测数据集，由研究团队于2025年发布，通过从德国电视节目中精选214条跨模态样本，为探索多模态语境下的反讽理解提供了重要基准。该数据集通过人工标注的三模态对齐数据，显著推动了德语区多模态语言理解研究的发展。

当前挑战

多模态反讽检测面临的核心挑战在于如何有效融合文本、音频和视觉模态中相互矛盾的语义线索。构建过程中需克服德语语言特有的文化语境复杂性，以及电视节目场景中声画不同步带来的标注困难。数据采集阶段需解决跨模态对齐的技术难题，同时确保人类标注者在分离单模态时保持标注一致性。现有模型表现显示，文本模态的识别优势与人类依赖音频线索的认知模式存在显著差异，这揭示了当前多模态模型在真实场景适应性方面的局限。

常用场景

经典使用场景

在自然语言处理与多模态人工智能研究中，MuSaG数据集被广泛应用于讽刺检测任务的基准测试与模型开发。该数据集通过整合德语电视节目中的文本、音频和视频模态，为研究者提供了丰富的多模态语境分析素材。其经典应用场景包括训练和评估模型在单模态及多模态设置下的讽刺识别能力，尤其适用于探索不同模态信息在理解复杂语言现象中的互补作用。

衍生相关工作

基于MuSaG数据集已衍生出多项经典研究工作，包括多模态特征融合架构的改进、跨语言讽刺检测模型的迁移学习策略等。这些工作深入探索了音频韵律特征与视觉表情在讽刺识别中的协同机制，并推动了面向德语场景的多模态大语言模型的发展，为后续研究建立了可复现的实验范式与评估标准。

数据集最近研究