MuSaG

Name: MuSaG
Creator: 德国卡尔斯鲁厄理工学院
Published: 2025-10-28 16:33:45
License: 暂无描述

arXiv2025-10-28 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/sc0ttypee/MuSaG

下载链接

链接失效反馈

官方服务：

资源简介：

MuSaG是一个德语多模态讽刺检测数据集，包含来自德国电视节目的33分钟手动选择和人工标注的声明。每个实例提供对齐的文本、音频和视频模态，并由人类分别进行注释，使其能够在单模态和多模态设置中进行评估。该数据集旨在支持未来对多模态讽刺检测的研究。

提供机构：

德国卡尔斯鲁厄理工学院

创建时间：

2025-10-28

原始信息汇总

MuSaG数据集概述

基本信息

数据集名称: MuSaG
许可证: Creative Commons Attribution-NonCommercial 2.0 (CC-BY-NC-2.0)
任务类别: 零样本分类
语言: 德语
规模: 小于1K样本

数据集描述

MuSaG是首个德语多模态讽刺检测数据集，包含从德国电视节目中手动选择和人工标注的33分钟陈述。每个实例提供对齐的文本、音频和视频模态，并分别由人工标注，支持单模态和多模态设置下的评估。

核心特征

模态类型: 文本、音频、视频
标注方式: 人工标注
数据量: 214个元素
数据内容: 对齐的音频、视频和人工审查的自动生成转录文本
标注信息: 包含每个标注者的独立标注，以及针对孤立文本、音频和视频模态收集的模态特定标注

研究用途

多模态讽刺检测
人机对齐研究
自然语言理解
情感分析
内容审核

基准测试

在九个开源和商业模型上进行了基准测试，涵盖文本、音频、视觉和多模态架构，并将其性能与人工标注进行了比较。

引用信息

bibtex @misc{scott2025musagmultimodalgermansarcasm, title={MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations}, author={Aaron Scott and Maike Züfle and Jan Niehues}, year={2025}, eprint={2510.24178}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.24178}, }

搜集汇总

数据集介绍

构建方式

在德语多模态讽刺检测研究领域，MuSaG数据集的构建采用了严谨的人工筛选与标注流程。研究团队从四档德国电视节目中手动选取具有明确讽刺风格的语句片段，确保覆盖不同性别说话者及多样化的讽刺表达。所有视频素材均来自德国公共广播机构的公开资源，经过专业处理分离出音频和视频流，音频采样率为44.1kHz，视频分辨率统一为426×240像素。文本数据通过OpenAI Whisper自动转录后，由母语为德语的专家进行人工校对，最终形成包含214条语句的多模态语料库。

特点

该数据集最显著的特征在于其完整的多模态标注体系，每条语句均包含文本、音频和视频三种对齐模态，并分别由人类标注者独立标注讽刺标签。数据集涵盖120条讽刺语句和94条非讽刺语句，说话者性别比例完全均衡，每条语句平均包含22.85个单词，持续时间约9.16秒。特别值得注意的是，MuSaG提供了完整的标注者一致性数据，其中155条语句达成完全一致共识，构成了MuSaG-FullAgree子集，为研究人类认知差异提供了宝贵资源。

使用方法

该数据集支持多种实验配置，既可用于单模态讽刺检测研究，也可探索多模态融合策略。研究者可分别使用文本、音频或视频单独输入，或组合不同模态进行综合分析。数据集特别设计了扩展上下文实验条件，允许在目标语句前后添加15秒对话内容，以考察语境对讽刺检测的影响。在模型评估方面，建议采用精确率、召回率和F1分数作为核心指标，并通过与人类标注结果的对比分析，深入探索模型在多模态理解方面的能力边界与改进方向。

背景与挑战

背景概述

反讽作为一种复杂的修辞形式，其字面含义与实际意图相悖，在社交媒体与流行文化中广泛存在，对自然语言理解与情感分析构成持续挑战。随着多模态大语言模型的兴起，反讽检测已超越文本范畴，需整合音频与视觉线索。2025年，卡尔斯鲁厄理工学院研究团队发布了首个德语多模态反讽数据集MuSaG，包含33分钟从德国电视节目中人工筛选的语句，涵盖文本、音频与视频模态的独立人工标注。该数据集填补了德语多模态反讽资源的空白，为对话系统、内容审核等应用提供了关键基准。

当前挑战

反讽检测的核心挑战在于其多模态特性：文本中需识别词汇矛盾与夸张修辞，音频中依赖语调与韵律特征，视觉中需解析面部表情与肢体语言。现有模型虽在文本模态表现优异，却难以有效融合非文本线索，导致与人类依赖音频主导的认知模式存在显著差距。数据构建过程中，人工筛选电视节目语句需平衡说话者性别与反讽强度，而多模态对齐与独立标注则要求精细的跨模态一致性控制，这些因素共同加剧了数据集构建的复杂性。

常用场景

经典使用场景

在自然语言处理领域，MuSaG数据集作为首个德语多模态讽刺检测资源，其经典应用场景聚焦于评估模型在文本、音频和视频模态下的讽刺识别能力。通过提供独立标注的多模态数据，该数据集能够系统分析不同模态对讽刺检测的贡献度，尤其在模拟真实对话场景中，研究者可借此探索模型如何整合语调起伏、面部表情等非文本线索来提升检测精度。

衍生相关工作

基于MuSaG的模态分离特性，衍生研究可深入探索多模态大语言模型在非文本线索融合上的优化路径。例如通过对比人类依赖音频与模型依赖文本的认知差异，催生了面向德语语境的多模态对齐算法改进，并为构建更适应真实对话场景的跨模态讽刺检测框架提供了理论支撑。

数据集最近研究