five

StandUp4AI

收藏
arXiv2025-05-25 更新2025-05-28 收录
下载链接:
https://tinyurl.com/EMNLPHumourStandUpPublic
下载链接
链接失效反馈
官方服务:
资源简介:
StandUp4AI数据集是一个多语言的单口喜剧视频幽默检测数据集,包含7种语言:英语、法语、西班牙语、意大利语、葡萄牙语、匈牙利语和捷克语。数据集由超过330小时的自动标注笑声和部分手动标注的视频组成。该数据集旨在用于研究幽默检测模型,并采用了序列标注的方法来预测观众笑声,而非仅仅在序列末尾进行分类。数据集包含了自动转录的文本和自动标注的笑声,以及一系列从数据中提取的其他特征,如动作单元、姿势和摄像头角度变化等。该数据集是迄今为止最大的、语言最多样化的现场喜剧表演多语言数据集,旨在成为幽默建模任务的参考数据集。

The StandUp4AI dataset is a multilingual stand-up comedy video humor detection dataset encompassing 7 languages: English, French, Spanish, Italian, Portuguese, Hungarian, and Czech. It comprises over 330 hours of videos with automatically labeled laughter and partially manually annotated content. This dataset is developed for research on humor detection models, and employs a sequence labeling methodology to predict audience laughter, rather than only conducting classification at the end of the sequence. It also includes automatically transcribed text, automatically labeled laughter, and a series of other features extracted from the data, such as Action Units, postures, and camera angle variations. To date, StandUp4AI is the largest and most linguistically diverse multilingual dataset of live stand-up comedy performances, and is intended to serve as a reference dataset for humor modeling tasks.
提供机构:
Universidad de Chile – DCC, Santiago, Chile; Universidad de Chile – DIE, Santiago, Chile; Without Affiliation, Paris, France; INRIA Chile, Santiago, Chile; Université Paris Saclay – LISN Orsay, France
创建时间:
2025-05-25
搜集汇总
数据集介绍
main_image_url
构建方式
StandUp4AI数据集的构建采用了多模态和多语言的方法,涵盖了七种语言的单口喜剧视频。首先,研究团队从互联网上收集了3,617个单口喜剧视频,总计334小时的内容,并利用自动语音识别技术(ASR)对视频进行转录。为了确保转录的准确性,团队结合了Whisper和WhisperX两种ASR工具的输出,通过交叉验证修正时间戳错误。此外,通过自动笑声检测模型对观众的笑声进行标注,并辅以手动验证,确保数据的高质量。
特点
StandUp4AI数据集以其多语言覆盖和丰富的上下文标注而著称。数据集包含英语、法语、西班牙语、意大利语、葡萄牙语、匈牙利语和捷克语七种语言,共计超过130,000个笑声标签。与传统的二元分类方法不同,该数据集将幽默检测任务建模为序列标注问题,能够捕捉连续的笑话标签机制。此外,数据集还提供了多种附加特征,如动作单元、姿态和镜头角度变化,为多模态研究提供了丰富的数据支持。
使用方法
StandUp4AI数据集适用于多种自然语言处理和计算机视觉任务,尤其是幽默检测和多模态情感分析。研究人员可以利用该数据集训练序列标注模型,预测观众笑声的发生时机。数据集还支持跨语言模型的开发,通过多语言数据的多样性提升模型的泛化能力。使用该数据集时,建议结合提供的附加特征(如音频和视觉特征)进行多模态分析,以全面捕捉幽默的复杂性。
背景与挑战
背景概述
StandUp4AI数据集由智利大学、INRIA智利以及巴黎萨克雷大学的研究团队于2025年提出,旨在推动计算幽默检测领域的发展。该数据集聚焦于单口喜剧视频中的幽默识别,涵盖了英语、法语、西班牙语等七种语言,包含超过330小时的视频内容,并采用自动与手动结合的方式标注观众笑声。其创新性在于将幽默检测任务重构为词级序列标注问题,而非传统的二分类框架,从而更精准地捕捉自然对话中的连续幽默机制。作为当前规模最大、语言多样性最丰富的单口喜剧数据集,StandUp4AI为多模态幽默计算模型提供了重要基准。
当前挑战
StandUp4AI面临的核心挑战体现在两方面:领域问题层面,单口喜剧的幽默具有高度语境依赖性和文化特异性,传统二分类模型难以捕捉连续出现的笑点标签;数据构建层面,多语言视频中自动语音识别(ASR)在方言和俚语场景下误差显著,且观众笑声与语音活动检测存在时序冲突。此外,数据采集依赖公开网络视频,存在内容删除风险,而当前基线模型仅基于文本模态,尚未整合音频与视觉特征,限制了多模态幽默线索的联合建模能力。
常用场景
经典使用场景
StandUp4AI数据集在幽默检测领域具有广泛的应用价值,尤其在多语言环境下对单口喜剧视频中的幽默元素进行识别和分析。通过自动标注观众笑声并结合手动验证,该数据集为研究者提供了一个丰富且多样化的资源,用于训练和评估幽默检测模型。其独特的序列标注方法使得模型能够连续预测笑话中的幽默点,而非仅局限于传统的二元分类框架。
解决学术问题
StandUp4AI数据集解决了幽默检测中的多个关键学术问题,包括多语言环境下的幽默识别、连续幽默点的标注以及自动笑声检测的优化。通过引入序列标注任务,该数据集突破了传统二元分类的局限,能够更全面地捕捉笑话中的上下文信息。此外,其提出的基于ASR错误的自动笑声检测方法显著提升了检测精度,为幽默检测模型的开发提供了新的技术路径。
衍生相关工作
StandUp4AI数据集衍生了一系列经典研究工作,包括多模态幽默检测模型的开发、基于ASR错误的自动笑声检测优化以及跨语言幽默识别算法的改进。相关研究进一步扩展了数据集的应用范围,例如在情感分析、跨文化幽默比较等领域取得了显著进展。这些工作不仅验证了数据集的可靠性,也为后续研究提供了丰富的基线模型和实验框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作