Seamless Interaction Dataset

Name: Seamless Interaction Dataset
Creator: Meta
Published: 2025-06-28 02:09:49
License: 暂无描述

arXiv2025-06-28 更新2025-07-02 收录

下载链接：

https://github.com/facebookresearch/seamless_interaction

下载链接

链接失效反馈

官方服务：

资源简介：

Seamless Interaction数据集是一个大规模的面对面交互视频数据集，由Meta公司收集，包含超过4,000小时的视频，涉及超过4,000名参与者，涵盖多样化的交互场景。该数据集旨在推动社交智能AI技术的发展，帮助AI理解双人交互中的行为动态，并生成与人类言语相协调的身体运动和面部表情。数据集不仅包括自然对话，还包括由专业演员即兴创作的对话，以涵盖更广泛的行为模式。此外，数据集还提供了丰富的元数据和标注，支持多种评估方法，以确保生成的交互质量。

The Seamless Interaction Dataset is a large-scale in-person conversational video dataset collected by Meta. It contains over 4,000 hours of video footage involving more than 4,000 participants, covering a diverse array of interaction scenarios. This dataset aims to advance the development of socially intelligent AI technologies, empowering AI to understand behavioral dynamics in two-person interactions and generate bodily movements and facial expressions synchronized with human speech. In addition to natural conversations, the dataset also includes dialogues improvised by professional actors to cover a broader spectrum of behavioral patterns. Furthermore, the dataset provides rich metadata and annotations that support multiple evaluation methods to ensure the quality of generated interactions.

提供机构：

Seamless Interaction Dataset 概述

数据集简介

名称: Seamless Interaction Dataset
规模: 4000+小时人类互动数据，涵盖4000+参与者
类型: 多模态数据集（视频、音频、文本、动作捕捉等）
应用领域:
- 虚拟代理与具身AI
- 自然人机交互
- 高级远程呈现体验
- 多模态内容分析工具
- 动画与合成内容生成

数据集结构

主要分类

Improvised: 基于预定义场景的引导式互动（至少包含专业演员）
Naturalistic: 普通人进行的提示性对话

目录结构

seamless_interaction/ ├── improvised/ # 引导式互动 │ ├── dev/ # 开发集 │ ├── test/ # 测试集 │ └── train/ # 训练集 └── naturalistic/ # 自然对话 ├── dev/ ├── test/ └── train/

数据内容

模态与特征

模态	描述	文件格式	采样率
视频	高清面对面录像	MP4 (H.264)	30/29.97 FPS
音频	降噪分离声道音频	WAV	48kHz
文本	时间对齐的语音转录	JSONL	-
SMPL-H	3D人体模型参数	NPY	30Hz
运动特征	量化模仿者运动数据	NPY	30Hz
标注	人类行为标注	JSON	-
VAD	语音活动检测	JSONL	100Hz
关键点	面部和身体关键点	NPY	30Hz

标注类型

标注类型	小时数	标注总数	平均标记数
1P-IS	1.1	751	5.8
1P-R	1.1	751	10.2
3P-IS	4.7	5132	5.2
3P-R	4.7	5132	11.3
3P-V	4.7	5132	14.6

下载选项

下载规模指南

规模	大小	方法	用例	脚本
单例	~100MB	S3	快速探索	download_s3.py
互动对	~200MB	S3	会话动态研究	download_s3.py
样本集	~1GB	S3/HF	原型开发	download_s3.py/download_hf.py
会话组	~400MB	S3	深度会话上下文	download_s3.py
单批次	~50GB	HF	本地开发	download_hf.py
多批次	~150GB+	HF	大规模分析	download_hf.py
不同分割	可变	HF	交叉验证	download_hf.py
完整数据集	~27TB	HF	完整研究	download_hf.py

使用示例

数据加载

python from seamless_interaction.fs import SeamlessInteractionFS

初始化配置

config = DatasetConfig(label="improvised", split="dev") fs = SeamlessInteractionFS(config=config)

下载数据

fs.download_batch_from_hf(batch_idx=0)

WebDataset加载

python from datasets import load_dataset

dataset = load_dataset( "webdataset", data_files={split: urls}, split=split, streaming=True )

许可信息

许可证: CC-BY-NC 4.0

搜集汇总

数据集介绍

构建方式

Seamless Interaction Dataset的构建基于大规模面对面互动视频的收集，涵盖了超过4,000名参与者在多样化情境下的4,000小时互动内容。数据采集过程中，参与者被分为自然互动组（Naturalistic）和即兴表演组（Improvised），前者由未经训练的普通参与者完成，后者由专业演员根据特定提示进行即兴表演。数据采集地点覆盖美国六个州的十个城市，确保地理和文化多样性。所有互动均通过高清视频和音频同步记录，并辅以详细的元数据和注释，包括参与者关系、个性特征及互动类型等信息。

特点

Seamless Interaction Dataset的核心特点在于其多模态性和丰富的上下文标注。数据集不仅包含高清视频和音频，还提供了面部表情、身体动作的参数化表示（如SMPL-H模型和Imitator面部表征），以及语音和文本转录。此外，数据集通过当代心理学理论（如人际环状模型IPC）设计了互动提示，涵盖了广泛的情感和行为谱系。其标注系统包括第一方和第三方注释，详细记录了参与者的内部状态、行为动机及视觉行为元素，为研究社交互动中的非语言信号提供了独特资源。

使用方法

该数据集适用于训练和评估理解及生成双向互动动态的AI模型，尤其在虚拟代理、远程呈现和多模态内容分析领域。使用方法包括：1）利用音频和视觉特征训练生成模型（如扩散模型），合成与语音同步的面部表情和身体动作；2）通过控制变量（如情感唤醒度、语义手势）调节生成内容的表现力；3）结合LLM生成语音输入，实现上下文感知的交互行为生成。数据集还支持2D视频和3D虚拟形象渲染，可通过Hugging Face平台获取。

背景与挑战

背景概述

Seamless Interaction Dataset是由Meta等机构的研究团队于2025年创建的大规模人际交互数据集，旨在推动社交人工智能技术的发展。该数据集包含超过4,000小时的面对面交互视频，涉及4,000多名参与者在多样化情境下的互动。数据集的核心研究问题是理解和生成二元交互中的动态行为，包括语言和非语言信号的复杂交织。该数据集对虚拟代理、远程呈现体验和多模态内容分析工具的开发具有重要影响力，为相关领域的研究提供了宝贵资源。

当前挑战

Seamless Interaction Dataset面临的挑战主要包括：1) 在领域问题方面，需要解决如何准确捕捉和建模人际交互中复杂的语言和非语言信号，包括面部表情、手势和身体动作的同步生成；2) 在构建过程中，挑战包括确保数据采集的隐私和伦理标准，处理大规模视频数据的质量控制，以及开发有效的标注方法。此外，数据集还需要解决参与者多样性、交互情境的真实性以及数据同步等技术难题。

常用场景

经典使用场景

Seamless Interaction Dataset被广泛应用于研究人类面对面交流中的非语言行为，如手势、面部表情和身体动态。该数据集通过捕捉超过4,000小时的面对面互动视频，为研究人员提供了丰富的多模态数据，用于分析和模拟人类交流中的复杂动态。特别是在虚拟代理、远程呈现体验和多模态内容分析工具的开发中，该数据集发挥了关键作用。

衍生相关工作

Seamless Interaction Dataset衍生了许多相关研究，包括基于音频和视觉输入生成面部表情和身体动作的模型开发。例如，研究人员利用该数据集开发了能够同时处理说话和倾听行为的模型，以及能够根据对话内容生成语义相关手势的模型。此外，数据集还被用于评估生成模型的质量，推动了人机交互领域的技术进步。

数据集最近研究