Short-Clips, Full-Videos
收藏arXiv2025-05-21 更新2025-05-22 收录
下载链接:
https://github.com/lzk901372/MM-When2Speak
下载链接
链接失效反馈官方服务:
资源简介:
本数据集由纽约州立大学石溪分校计算机科学系与Atmanity Inc.合作构建,旨在帮助对话式AI理解何时以及如何回应。数据集包含真实对话视频中的视觉、听觉和文本流,共分为Short-Clips和Full-Videos两个子集。Short-Clips子集包含4,393个反应片段、2,000个完整回应片段和2,000个沉默片段,用于训练和测试模型对孤立短片段中适当声音反应的预测能力。Full-Videos子集则用于评估模型在连续对话中判断何时说话的能力。这些数据集的创建有助于提升对话式AI的实时响应能力和自然度。
This dataset was co-developed by the Department of Computer Science, Stony Brook University, State University of New York and Atmanity Inc., with the goal of helping conversational AI understand when and how to generate appropriate responses. The dataset contains visual, auditory and textual streams from real conversational videos, and is split into two subsets: Short-Clips and Full-Videos. The Short-Clips subset includes 4,393 reaction clips, 2,000 complete response clips and 2,000 silent clips, which are utilized to train and test models' ability to predict proper vocal responses in isolated short segments. The Full-Videos subset is intended to evaluate models' capacity to judge when to speak during continuous conversations. The creation of this dataset helps enhance the real-time response performance and naturalness of conversational AI.
提供机构:
纽约州立大学石溪分校计算机科学系, Atmanity Inc.
创建时间:
2025-05-21
原始信息汇总
数据集概述
基本信息
- 数据集名称: Beyond Words: Multimodal LLM Knows When to Speak
- 数据集状态: 待发布(Codes and datasets to be released in the future)
相关研究
- 关联论文: "Beyond Words: Multimodal LLM Knows When to Speak"
备注
- 该数据集目前尚未发布,具体内容和发布时间需关注后续更新。
搜集汇总
数据集介绍

构建方式
Short-Clips, Full-Videos数据集构建于真实世界对话视频,通过精心筛选和标注流程确保数据质量。研究团队从公开在线平台收集了2000余段双人对话视频,经过严格过滤后保留357段高质量视频。采用滑动窗口机制(窗口大小10秒,步长0.5秒)将视频分割为时序对齐的多模态片段,通过音频分离技术标注响应类型,并利用大型语言模型对七类短暂反应(如肯定、感谢等)进行细粒度分类。最终构建包含4393个反应片段、2000个完整响应和2000个沉默片段的平衡数据集,按7:3比例划分为训练集和测试集。
特点
该数据集的核心价值在于其多模态同步特性和细粒度标注体系。视频、音频和文本三模态数据严格时序对齐,完整保留了真实对话中的视觉线索(如面部表情)、听觉特征(如语调变化)和语言内容。创新性地定义了九类响应标签,包括七种短暂反应类型,有效捕捉了人类对话中微妙的情感反馈和互动节奏。数据集分为Short-Clips和Full-Videos两个子集,前者适用于孤立片段的反应类型识别,后者支持连续对话场景下的实时响应预测研究,为多模态对话系统开发提供了全面的评估基准。
使用方法
使用本数据集需遵循其多模态特性与滑动窗口机制。研究者可采用端到端框架同步处理视频帧(通过视觉编码器)、梅尔频谱特征(通过音频编码器)和文本转录(通过语言模型)。建议参考原论文的MM-When2Speak架构,采用自注意力机制实现跨模态特征融合,通过两层训练策略(跨模态预训练+监督微调)优化模型性能。评估时应区分Short-Clips的片段分类任务和Full-Videos的连续预测任务,采用精确率、召回率等指标进行多维度评测。数据集的滑动窗口设计支持实时系统开发,窗口重叠机制确保了预测的时间连续性。
背景与挑战
背景概述
Short-Clips, Full-Videos数据集由Stony Brook University和Atmanity Inc.的研究团队于2025年提出,旨在解决多模态大语言模型(LLM)在实时对话中响应时机预测的挑战。该数据集包含从真实对话视频中提取的时间对齐的视觉、听觉和文本流,支持对双人互动中响应时机的细粒度建模。其核心研究问题是提升对话AI在复杂多模态环境下的响应时机判断能力,特别是在插入简短反馈(如肯定、疑问等)时的准确性。该数据集通过融合多模态信号,显著提升了现有LLM在对话流畅性和社会性方面的表现,为多模态对话系统设立了新基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,传统文本中心化LLM难以捕捉人类对话中依赖视觉/听觉信号的微妙反馈时机(如点头、语调变化),导致响应机械且缺乏社会性;在构建层面,需克服多模态数据对齐(视频/音频/文本毫秒级同步)、反应类型标注(7类细粒度标签需区分语义相近的反馈)以及真实对话噪声(如重叠语音、非标准发音)等难题。此外,从结构化书面语料迁移至自发口语对话存在的语言差异(碎片化/共享语境依赖)进一步增加了建模复杂度。
常用场景
经典使用场景
在自然语言处理和计算机视觉的交叉领域,Short-Clips, Full-Videos数据集为研究多模态对话系统中的实时响应预测提供了重要支持。该数据集通过同步的视频、音频和文本数据,使得研究者能够深入分析对话中的细微信号,如面部表情、语音语调和文本内容,从而预测何时插入简短的反馈或完整的回应。这一场景特别适用于需要高精度时间对齐的对话系统研究。
解决学术问题
Short-Clips, Full-Videos数据集解决了多模态对话系统中实时响应预测的关键学术问题。传统的大型语言模型(LLMs)主要依赖文本输入,难以捕捉现实对话中的视觉和听觉信号,导致响应时机不准确。该数据集通过整合多模态数据,显著提升了模型在预测简短反馈(如“嗯”、“哦”)和完整回应时的准确性,填补了现有技术在实时对话交互中的空白。
衍生相关工作
Short-Clips, Full-Videos数据集催生了一系列经典的多模态对话研究。例如,MM-When2Speak模型通过结合视觉、听觉和文本信息,显著提升了响应时机预测的准确性。此外,该数据集还启发了TurnGPT和RC-TurnGPT等模型的改进,使其能够更好地处理对话中的简短反馈。这些工作共同推动了多模态对话系统的发展,为更自然的人机交互奠定了基础。
以上内容由遇见数据集搜集并总结生成



