UR-FUNNY

arXiv2025-09-30 收录

下载链接：

https://github.com/roc-hci/ur-funny/blob/master/ur-funny-v1.md

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个幽默检测数据集，包含了视频、音频和文本转录资料。任务的目的是预测片段结束后是否会有笑声，提示信息为“预测这段剪辑的情感：”。数据规模方面，训练集包含5306个幽默实例和5292个非幽默实例；验证集包含1313个幽默实例和1313个非幽默实例；测试集则包含1638个幽默实例和1652个非幽默实例。该任务属于多模态情感分析。

This is a humor detection dataset encompassing video, audio, and text transcription resources. The task aims to predict whether laughter will occur after the segment ends, with the prompt being "Predict the sentiment of this clip:". In terms of dataset scale, the training set contains 5306 humorous instances and 5292 non-humorous instances; the validation set includes 1313 humorous instances and 1313 non-humorous instances; the test set consists of 1638 humorous instances and 1652 non-humorous instances. This task falls under the category of multimodal sentiment analysis.

搜集汇总

数据集介绍

构建方式

在幽默计算这一多模态语言分析的前沿领域，构建高质量数据集需兼顾内容的多样性与模态的完整性。UR-FUNNY数据集以TED演讲视频为原始素材，因其在演讲者背景与话题主题上均展现出广泛多样性。数据采集过程首先依据视频转录文本中的观众笑声标记，识别出8257个幽默片段，将紧邻笑声标记的句子定义为笑点句，其前的若干句子作为上下文。为构建平衡的负样本，研究团队从同一批视频中随机选取了同等数量的非幽默片段，其最后一个句子不引发笑声，但同样配备上下文，这种同源负采样策略有效提升了分类任务的挑战性。通过强制对齐技术，实现了文本、音频与视频流在单词级别的时间同步，为后续的多模态特征提取与分析奠定了精确的时序基础。

特点

UR-FUNNY数据集的核心特点在于其开创性地整合了语言、视觉与声学三种模态，为全面研究幽默的表达机制提供了首个综合性资源。数据集的规模与多样性尤为突出，涵盖了1741位不同演讲者与417个不同主题，确保了模型能够学习超越个体风格与特定话题的通用幽默模式。其样本结构精心设计，每个实例均由一个笑点句及其前置的上下文句子序列构成，模拟了幽默在对话中逐步构建并最终引爆的动态过程。相较于以往仅依赖文本或单一辅助模态的幽默数据集，UR-FUNNY通过提供对齐的多模态序列，使得研究者能够深入探究语言内容、面部表情、手势与语音韵律在幽默产生中的协同作用与复杂互动。

使用方法

该数据集主要用于训练与评估多模态幽默检测模型，其标准任务被定义为二分类问题：给定一个由多模态上下文和笑点句构成的序列，模型需预测该笑点句是否会触发即时笑声。研究者在标准划分的训练、验证和测试集上开展实验，并确保各集合间的演讲者完全独立，以防止模型过拟合到特定演讲者的表达习惯。典型的使用流程包括：首先加载数据集提供的已提取特征，包括文本的词嵌入向量、基于COVAREP工具包计算的声学特征以及通过OpenFace分析得到的面部动作单元等视觉特征。随后，研究者可构建如论文中提出的上下文记忆融合网络等模型架构，对三种模态的时序信息进行编码与融合，最终完成幽默与否的判别。该数据集为探索多模态融合技术、上下文建模以及幽默的跨模态一致性分析提供了基准平台。

背景与挑战

背景概述

幽默作为一种独特的社交沟通行为，其表达融合了文本、视觉与声学等多模态信息，对自然语言处理领域提出了新的研究挑战。UR-FUNNY数据集由罗切斯特大学与卡内基梅隆大学的研究团队于2019年共同创建，旨在为多模态幽默理解提供首个涵盖文本、视觉与声学的综合性资源。该数据集基于TED演讲视频构建，通过标注观众笑声标记来识别幽默片段与非幽默对照，核心研究问题聚焦于多模态语境下的幽默检测，即模型需结合上下文与笑点句的多模态信息预测是否引发即时笑声。UR-FUNNY的推出填补了多模态幽默分析的数据空白，为情感计算、人机交互等领域的模型开发提供了重要基准。

当前挑战

UR-FUNNY数据集所针对的幽默检测任务面临多重挑战：幽默表达具有高度个性化与创造性，其多模态特征（如文本双关、面部表情与语调变化）之间存在复杂且异步的时空关联，模型需精准捕捉这些跨模态的微妙互动。同时，幽默依赖上下文语义的逐步积累与笑点的突然转折，要求系统具备长距离依赖建模能力。在数据构建过程中，挑战主要体现于多模态对齐的精确性——需通过强制对齐技术实现文本、音频与视频帧级别的同步，并确保负样本从同一视频中采样以增强判别难度。此外，数据集的多样性（涵盖1741名演讲者与417个主题）虽提升了泛化性，但也引入了说话人风格与话题差异所带来的建模复杂性。

常用场景

经典使用场景

在自然语言处理与多模态学习领域，UR-FUNNY数据集为幽默检测研究提供了经典的多模态分析框架。该数据集通过整合文本、视觉与声学三种模态信息，模拟真实人际交流中幽默的动态生成过程。研究者通常利用该数据集训练模型，使其能够根据连续的上下文语句及其伴随的多模态线索，精准预测最后一个句子是否构成引发笑声的妙语。这一场景深刻体现了多模态语言理解在捕捉复杂社交信号方面的核心价值。

衍生相关工作

UR-FUNNY数据集的发布催生了一系列多模态幽默分析与语言理解领域的经典工作。其论文中提出的上下文记忆融合网络（C-MFN）基线模型，启发了后续研究对时序上下文与多模态融合机制的深入探索。许多工作在此基础上，引入了更先进的注意力机制、图神经网络或跨模态对齐方法，以提升幽默检测性能。该数据集也常被用作基准，与CMU-MOSEI等多模态情感分析数据集进行对比研究，共同推动了多模态机器学习在建模复杂社交与情感信号方面的理论进展与架构创新。

数据集最近研究