SMILE

Name: SMILE
Creator: 韩国科学技术院
Published: 2024-05-24 17:45:09
License: 暂无描述

arXiv2024-05-24 更新2024-06-21 收录

下载链接：

https://github.com/postechami/SMILE-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SMILE数据集是由韩国科学技术院创建的，专注于理解视频中笑声的多模态数据集。该数据集包含887个视频片段，每个片段都配有语言描述，解释人们为何发笑。数据集主要关注观众笑声，因为这种笑声通常信号清晰且代表性强。创建过程中，数据集使用了TED演讲和情景喜剧两种不同来源的视频，确保了数据多样性。SMILE数据集的应用领域广泛，旨在通过机器理解人类社交互动中的非语言信号，如笑声，从而推动人工智能在社交智能方面的进步。

The SMILE Dataset is a multimodal dataset developed by the Korea Advanced Institute of Science and Technology (KAIST) that focuses on understanding laughter in videos. It comprises 887 video clips, each paired with textual explanations for why people are laughing. The dataset primarily centers on audience laughter, as this type of laughter typically features clear signals and strong representativeness. During its development, videos from two distinct sources—TED Talks and situation comedies (sitcoms)—were utilized to ensure data diversity. The SMILE Dataset has a wide range of application scenarios, aiming to advance artificial intelligence in the field of social intelligence by enabling machines to comprehend non-verbal signals (such as laughter) in human social interactions.

提供机构：

韩国科学技术院

创建时间：

2023-12-15

搜集汇总

数据集介绍

构建方式

在社交智能研究领域，理解非语言信号如笑声的生成机制具有重要意义。SMILE数据集的构建聚焦于视频中的观众笑声推理任务，通过精心筛选TED演讲和情景喜剧两类视频源，确保数据覆盖多样化的社交语境。构建过程首先利用笑声检测器识别持续时间超过0.5秒且与台词间隔不超过1秒的观众笑声片段，以此过滤无关的干扰信号。视频片段长度控制在10至90秒之间，以平衡上下文信息的完整性与噪声干扰。标注环节采用人机协作模式，先由大型语言模型生成候选解释，再通过众包平台让标注者选择或修正最合理的描述，最后经过人工校验与后处理，形成高质量的语言描述与视频片段配对。

特点

SMILE数据集的核心特点在于其多模态融合与任务导向的设计理念。数据集包含887个视频片段，每个片段均配有解释笑声原因的自然语言描述，为监督学习提供了结构化基础。其多模态特性体现在整合了视觉、听觉和语义三重线索：视觉线索通过面部动作单元和场景描述捕捉人物表情与环境背景；听觉线索提取语音的音高、强度等声学特征；语义线索则来源于视频转录文本。数据分布上，TED演讲与情景喜剧分别代表了释放性幽默与对抗性幽默两种主导类型，这种异质性增强了模型对多样化笑声触发机制的理解能力。数据统计分析进一步揭示了不同视频类型中多模态线索的差异化重要性，为模型设计提供了实证依据。

使用方法

该数据集主要服务于视频笑声推理任务，旨在训练模型根据给定视频片段生成解释观众发笑原因的自然语言描述。使用方法上，研究者可将多模态视频信息转化为统一的文本表示，作为大型语言模型的输入。具体而言，视觉、听觉和语义特征被编码为结构化文本描述，与任务指令共同构成提示词，驱动模型进行因果推理。实验表明，采用多模态文本表示并结合微调策略的大型语言模型能够生成合理的笑声解释，其性能显著优于仅依赖原始视频输入的基线模型。此外，该数据集的多模态表示方法可扩展至幽默检测、讽刺识别等其他视频理解任务，体现了其方法论的通用性。数据集的开放访问为后续社交智能研究提供了宝贵的基准资源。

背景与挑战

背景概述

SMILE数据集由浦项科技大学、首尔国立大学及延世大学的研究团队于2024年联合构建，旨在推动机器对视频中笑声背后原因的理解，即‘视频笑声推理’任务。该数据集聚焦于社交互动中极具代表性的非语言信号——笑声，通过整合TED演讲与情景喜剧中的887个视频片段及其对应的语言描述，为人工智能在社交智能领域的研究提供了首个专门用于解释笑声成因的多模态资源。其核心研究问题在于如何让机器不仅识别笑声的发生，更能深入理解引发笑声的复杂社会、情感与认知因素，从而为构建具有共情能力的人机交互系统奠定基础。

当前挑战

SMILE数据集所针对的‘视频笑声推理’任务面临多重挑战。首要挑战源于笑声理解本身的高度复杂性，它涉及语言技能、语境知识、心理理论及社会感知等多维认知能力的交织，且具有强烈的主观性与多模态依赖性。其次，在数据集构建过程中，研究者需克服标注难题：由于幽默感知因人而异，为视频中的笑声生成客观、一致的解释性标注极为困难。为此，团队创新性地采用大型语言模型生成候选解释，再结合人工筛选与修正的策略，以在减轻标注负担的同时确保标注质量。此外，如何有效融合视频中的视觉、声学与语义等多模态线索，并转化为适合语言模型推理的表示形式，亦是构建过程中的关键挑战。

常用场景

经典使用场景

在社交智能与多模态推理领域，SMILE数据集为视频笑声理解任务提供了关键资源。该数据集通过整合TED演讲和情景喜剧中的视频片段，结合对应的语言描述，构建了一个专门用于解释观众发笑原因的多模态基准。其经典使用场景在于训练和评估大型语言模型在理解视频中笑声触发机制方面的能力，特别是在处理视觉、听觉和语义信息的融合时，模型需要解析幽默、讽刺或意外情境中的复杂社会信号。

解决学术问题

SMILE数据集解决了多模态人工智能中一个长期存在的挑战：如何让机器理解人类笑声背后的社会与认知机制。传统研究多集中于笑声检测或幽默分类，而缺乏对笑声成因的深入解释。该数据集通过引入“视频笑声推理”任务，推动了机器在社交信号理解方面的进展，使模型能够超越简单的二元判断，生成自然语言描述来解释笑声的触发因素。这不仅深化了对非语言社交线索的建模，还为构建具有共情能力的人机交互系统提供了理论基础。

衍生相关工作

SMILE数据集的推出催生了一系列围绕多模态社交信号理解的研究工作。例如，基于该数据集构建的基线模型展示了大型语言模型与多模态文本表示结合的有效性，启发了后续研究如何将视觉、听觉特征转化为语言可处理的形式。同时，该任务框架也被扩展至其他视频理解领域，如幽默检测和讽刺识别，促进了跨任务的知识迁移。此外，相关工作还探索了在野生视频（如单口喜剧或亲密对话）中应用笑声推理的可行性，为理解更广泛的社会互动场景开辟了新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集