Seamless Interaction Dataset

Name: Seamless Interaction Dataset
Creator: Meta
Published: 2025-07-01 09:02:44
License: 暂无描述

arXiv2025-07-01 更新2025-07-03 收录

下载链接：

https://github.com/facebookresearch/seamless_interaction, https://huggingface.co/datasets/facebook/seamless-interaction

下载链接

链接失效反馈

官方服务：

资源简介：

Seamless Interaction 数据集是一个大规模的面对面互动数据集，包含超过 4,000 小时的互动视频和 4,000 多名参与者的互动内容。该数据集旨在帮助研究人员开发能够理解双向行为动态的社交智能 AI 技术，以推动虚拟助手、远程呈现体验和多媒体内容分析工具等领域的发展。该数据集包含了丰富的元数据，涵盖了互动提示、互动类型、参与者个性、关系信息和内部状态、内部状态理据和视觉行为等。此外，该数据集还提供了一系列研究模型，可以理解和生成双向身体动态，并生成与人类语音相匹配的肢体动作和面部表情。该数据集具有创新性，因为它包含了多种类型的互动、关系和内容，并提供了丰富的元数据和注释信息。

The Seamless Interaction Dataset is a large-scale face-to-face interaction dataset containing over 4,000 hours of interactive videos and interaction content from more than 4,000 participants. This dataset aims to assist researchers in developing socially intelligent AI technologies that can understand bidirectional behavioral dynamics, thereby advancing fields such as virtual assistants, telepresence experiences, and multimedia content analysis tools. This dataset includes rich metadata covering interaction cues, interaction types, participant personalities, relationship information, internal states, the rationales for internal states, and visual behaviors, among other categories. Furthermore, this dataset also provides a set of research models that can understand and generate bidirectional bodily dynamics, as well as generate limb movements and facial expressions that match human speech. This dataset is innovative in that it encompasses diverse types of interactions, relationships, and content, alongside rich metadata and annotation information.

提供机构：

Meta

创建时间：

2025-06-28

搜集汇总

数据集介绍

构建方式

Seamless Interaction Dataset的构建基于面对面互动的多模态记录，涵盖了超过4,000名参与者的4,000小时互动视频。数据收集过程包括自然对话和即兴表演两种互动类型，旨在捕捉广泛的沟通风格和人际目标。互动提示基于当代心理学理论设计，确保数据集的多样性和代表性。此外，数据集还包含详细的元数据和注释，如参与者个性、关系类型和互动中的视觉行为。

特点

Seamless Interaction Dataset的特点在于其规模庞大、多样性丰富以及多模态同步记录。数据集不仅包含音频和视频，还提供了面部表情、身体动作的详细参数化表示，如SMPL-H模型和Imitator面部表示。此外，数据集还标注了互动中的情感状态、行为动机和视觉元素，为研究社交AI提供了全面的基础。

使用方法

Seamless Interaction Dataset的使用方法包括训练和评估生成模型，如Dyadic Motion Models，这些模型能够根据语音和视觉输入生成面部表情和身体动作。数据集还可用于研究人际互动中的动态行为，如情感表达、语义手势和对话节奏。通过集成大型语言模型（LLM）和2D/3D渲染技术，数据集支持开发交互式虚拟代理和沉浸式远程呈现体验。

背景与挑战

背景概述

Seamless Interaction Dataset是由Meta等机构的研究团队于2025年推出的一个大规模多模态交互数据集，旨在推动社交智能AI技术的发展。该数据集包含超过4,000小时的面对面交互视频，涉及4,000多名参与者在多样化情境下的对话。数据集的设计基于当代心理学理论，特别关注人际互动中的代理（agency）和共情（communion）维度，通过精心设计的提示语引导参与者展现不同的社交姿态。该数据集的创新性体现在三个方面：1）采用现场录制方式保留面对面交流的自然动态；2）涵盖陌生人、朋友、家人等多种关系类型；3）包含自然对话和专业演员的即兴表演两种内容形式。作为首个同步记录完整面部和身体动态的大规模交互数据集，它为虚拟代理、远程呈现和多模态分析等研究提供了重要基础。

当前挑战

该数据集面临的挑战主要包括：1）领域问题方面：需要解决如何准确建模双向交互中的非言语行为（如手势、表情）与言语的复杂同步关系，以及如何捕捉对话中的倾听行为（如点头、微笑）等传统单模态数据集难以覆盖的交互动态；2）构建过程方面：在数据采集阶段需克服参与者隐私保护（避免敏感信息泄露）、多站点录制质量一致性控制（如4K视频与48kHz音频同步）、以及大规模人工标注（如对4,500个兴趣时刻进行内部状态标注）等难题。此外，数据集还需平衡自然性与可控性，既要保留真实互动的自发性，又要确保数据在心理学理论维度上的系统覆盖。

常用场景

经典使用场景

Seamless Interaction Dataset被广泛用于研究人类面对面交流中的非语言行为动态，特别是在虚拟代理和增强现实/虚拟现实（AR/VR）环境中。该数据集通过捕捉超过4,000小时的面对面互动视频，为研究者提供了丰富的多模态数据，用于分析和模拟人类在对话中的身体语言、面部表情和语音同步行为。其经典使用场景包括训练AI模型以生成与人类语音同步的面部表情和身体动作，以及研究双人互动中的动态反馈机制。

衍生相关工作

该数据集衍生了许多相关研究，包括双人音频驱动运动模型（Dyadic Motion Models）、情感可控的运动生成模型，以及基于LLM的语音和视觉行为生成系统。例如，研究者利用该数据集开发了能够根据语音和视觉输入生成同步面部和身体动作的模型，进一步推动了虚拟代理技术的进步。此外，该数据集还被用于评估生成模型的性能，推动了相关领域的基准测试和评估方法的发展。

数据集最近研究