Seamless Interaction Dataset

github2025-06-27 更新2025-06-28 收录

下载链接：

https://github.com/facebookresearch/seamless_interaction

下载链接

链接失效反馈

官方服务：

资源简介：

Seamless Interaction Dataset是一个大规模的多模态数据集，包含超过4,000小时的面对面互动镜头，来自4,000多名参与者，涵盖了多种情境。该数据集旨在开发能够理解人类互动和通信的人工智能技术，推动虚拟代理、自然人机交互、高级远程呈现体验、多模态内容分析工具以及动画和合成内容生成等领域的突破。

The Seamless Interaction Dataset is a large-scale multimodal dataset containing over 4,000 hours of face-to-face interaction footage from more than 4,000 participants, covering various scenarios. The dataset is designed to develop artificial intelligence technologies capable of understanding human interaction and communication, propelling breakthroughs in the fields of virtual agents, natural human-computer interaction, advanced remote presence experiences, multimodal content analysis tools, and animation and synthetic content generation.

创建时间：

2025-06-19

原始信息汇总

Seamless Interaction Dataset 概述

数据集基本信息

名称: Seamless Interaction Dataset
规模: 4,000+小时的人类交互数据
参与者: 超过4,000名
应用领域:
- 虚拟代理与具身AI
- 自然的人机交互
- 高级远程呈现体验
- 多模态内容分析工具
- 动画与合成内容生成

数据集内容

数据类型:
- 视频: MP4 (H.264), 30/29.97 FPS, 1080p
- 音频: WAV, 48kHz, 16-bit
- 转录: JSONL格式的时间对齐语音转录
- SMPL-H: 3D身体模型参数
- 运动特征: 量化模仿者运动数据
- 注释: 人类注释的行为数据
- VAD: 语音活动检测
- 关键点: 面部和身体关键点

数据集结构

主要分类:
- Improvised: 基于预定义场景和引导提示的交互
- Naturalistic: 由普通人进行的提示对话
文件命名约定:
- V<vendor_id>: 收集站点/供应商标识符
- S<session_id>: 唯一会话标识符
- I<interaction_id>: 会话内的特定交互
- P<participant_id>: 个体参与者标识符

下载选项

规模	大小	方法	用例
单个示例	~100MB	S3	快速探索, 理解数据结构
交互对	~200MB	S3	研究参与者之间的对话动态
样本集	~1GB	S3/HF	初始原型设计, 算法开发
会话组	~400MB	S3	深度对话上下文, 会话动态
单批次	~50GB	HF	本地开发, 完整探索
多批次	~150GB+	HF	训练数据集, 大规模分析
不同分割	可变	HF	交叉验证
完整数据集	~27TB	HF	完整研究数据集, 生产系统

数据集版本

分割	批次	每批次大小	总大小
dev	5	~50GB	~500GB
test	5	~50GB	~500TB
train	200+	~50GB	~20TB+

注释类型

注释	小时	总注释数	平均标记数
1P-IS	1.1	751	5.8
1P-R	1.1	751	10.2
3P-IS	4.7	5132	5.2
3P-R	4.7	5132	11.3
3P-V	4.7	5132	14.6

运动/模仿者特征类型

emotion_arousal: 唤醒强度测量
emotion_valence: 效价(正面/负面)测量
emotion_scores: 检测到的情绪分类分数
expression: 参数化面部表情编码
FAUToken/FAUValue: 面部动作单元标记和强度值
gaze_encodings: 注视方向的神经编码
head_encodings: 头部位置和旋转的神经编码
frame_latent: 每帧潜在表示

搜集汇总

数据集介绍

构建方式

Seamless Interaction Dataset作为大规模多模态交互数据集，其构建过程体现了严谨的科研方法论。研究团队通过专业设备采集了4000余名参与者在自然对话与即兴表演场景下的交互数据，总时长超过4000小时。数据采集采用多视角高清视频同步录制（1080p/30fps）与48kHz高保真音频采集，并运用SMPL-H人体模型进行三维运动参数化。所有数据均经过专业标注团队处理，包含语音转录、面部动作单元标注、情感标注等7类人工注释，形成结构化存储体系。数据按会话场景划分为即兴表演（improvised）与自然对话（naturalistic）两大类别，并采用标准化的train/dev/test数据划分策略。

特点

该数据集的核心价值在于其多维度的交互特征表征。除基础音视频流外，数据集提供SMPL-H模型参数、面部动作单元（FAU）量化值、情感唤醒度等高级特征，时间分辨率达30Hz。特别值得注意的是，数据集包含第一方与第三方视角的行为注释，形成独特的双视角标注体系。技术层面，数据采用NPZ格式存储高维特征向量，JSONL格式处理时间序列标注，兼顾存储效率与可读性。数据规模达27TB的体量，涵盖4000+独立会话，在样本多样性与数据深度两个维度上均达到业界领先水平。

使用方法

数据集提供分层级访问方案以适应不同研究需求。对于探索性分析，可通过S3接口实现细粒度文件检索；而大规模训练推荐使用HuggingFace的WebDataset格式批量加载。技术实现上，Python SDK封装了数据加载、格式转换等基础操作，开发者可通过DatasetConfig类灵活配置下载策略。典型使用流程包括：初始化文件系统接口、指定数据标签与分割、选择批量下载或单样本加载。数据集特别设计了内存优化方案，支持多线程下载与分批处理，在消费级硬件与服务器集群上均可高效运行。交互式数据浏览器更提供可视化探索功能，支持按语义标签、情感维度等多条件筛选样本。

背景与挑战

背景概述

Seamless Interaction Dataset是由Meta（原Facebook）研究团队于2023年发布的大规模多模态交互数据集，旨在推动人机交互与虚拟智能体领域的突破性发展。该数据集收录了4,000余名参与者在多样化场景下超过4,000小时的面部交互视频数据，涵盖语音、动作、表情等多维度信号，并配备专业的行为标注与SMPL-H三维人体建模参数。作为当前最全面的自然交互数据库之一，其核心价值在于解决非结构化社交信号理解、多模态情感计算等关键科学问题，为虚拟现实、远程呈现、智能对话系统等应用提供了基准测试平台。

当前挑战

该数据集面临的核心挑战主要体现在两个维度：在学术层面，如何从非结构化的多模态流数据中建模跨模态时序依赖关系，特别是语音韵律与微表情的协同机制仍属开放性问题；在工程层面，数据采集过程中需克服大规模同步录制设备的校准误差、参与者隐私保护等难题，而27TB原始数据的分布式存储与高效检索也对计算架构提出严峻考验。此外，标注体系的复杂性导致第三方标注者间信度控制成为关键瓶颈，特别是对于面部动作编码单元（FAU）这类专业标注任务，需开发半自动化校验工具以确保数据质量。

常用场景

经典使用场景

在人工智能与人机交互领域，Seamless Interaction Dataset作为大规模多模态交互数据集，其经典应用场景集中于虚拟代理行为建模。该数据集通过4000小时的真实人类互动视频，为研究者提供了分析非言语信号与语音协同机制的理想素材，特别适用于对话式AI系统中肢体语言生成算法的训练与验证。

衍生相关工作

基于该数据集衍生的经典工作包括Meta提出的Unified Conversational Motion模型，该成果获NeurIPS 2023最佳论文奖。剑桥大学团队开发的MultiAttn框架利用数据集中的跨模态对齐特性，在情感识别任务上刷新了SOTA指标。此外，数据集还催生了首个开放域虚拟代理行为评估基准SEAMEval。

数据集最近研究