Seamless Interaction Dataset
收藏github2025-06-27 更新2025-06-28 收录
下载链接:
https://github.com/facebookresearch/seamless_interaction
下载链接
链接失效反馈官方服务:
资源简介:
Seamless Interaction Dataset是一个大规模的多模态数据集,包含超过4,000小时的面对面互动镜头,来自4,000多名参与者,涵盖了多种情境。该数据集旨在开发能够理解人类互动和通信的人工智能技术,推动虚拟代理、自然人机交互、高级远程呈现体验、多模态内容分析工具以及动画和合成内容生成等领域的突破。
The Seamless Interaction Dataset is a large-scale multimodal dataset containing over 4,000 hours of face-to-face interaction footage from more than 4,000 participants, covering various scenarios. The dataset is designed to develop artificial intelligence technologies capable of understanding human interaction and communication, propelling breakthroughs in the fields of virtual agents, natural human-computer interaction, advanced remote presence experiences, multimodal content analysis tools, and animation and synthetic content generation.
创建时间:
2025-06-19
原始信息汇总
Seamless Interaction Dataset 概述
数据集基本信息
- 名称: Seamless Interaction Dataset
- 规模: 4,000+小时的人类交互数据
- 参与者: 超过4,000名
- 应用领域:
- 虚拟代理与具身AI
- 自然的人机交互
- 高级远程呈现体验
- 多模态内容分析工具
- 动画与合成内容生成
数据集内容
- 数据类型:
- 视频: MP4 (H.264), 30/29.97 FPS, 1080p
- 音频: WAV, 48kHz, 16-bit
- 转录: JSONL格式的时间对齐语音转录
- SMPL-H: 3D身体模型参数
- 运动特征: 量化模仿者运动数据
- 注释: 人类注释的行为数据
- VAD: 语音活动检测
- 关键点: 面部和身体关键点
数据集结构
-
主要分类:
- Improvised: 基于预定义场景和引导提示的交互
- Naturalistic: 由普通人进行的提示对话
-
文件命名约定:
V<vendor_id>: 收集站点/供应商标识符S<session_id>: 唯一会话标识符I<interaction_id>: 会话内的特定交互P<participant_id>: 个体参与者标识符
下载选项
| 规模 | 大小 | 方法 | 用例 |
|---|---|---|---|
| 单个示例 | ~100MB | S3 | 快速探索, 理解数据结构 |
| 交互对 | ~200MB | S3 | 研究参与者之间的对话动态 |
| 样本集 | ~1GB | S3/HF | 初始原型设计, 算法开发 |
| 会话组 | ~400MB | S3 | 深度对话上下文, 会话动态 |
| 单批次 | ~50GB | HF | 本地开发, 完整探索 |
| 多批次 | ~150GB+ | HF | 训练数据集, 大规模分析 |
| 不同分割 | 可变 | HF | 交叉验证 |
| 完整数据集 | ~27TB | HF | 完整研究数据集, 生产系统 |
数据集版本
| 分割 | 批次 | 每批次大小 | 总大小 |
|---|---|---|---|
| dev | 5 | ~50GB | ~500GB |
| test | 5 | ~50GB | ~500TB |
| train | 200+ | ~50GB | ~20TB+ |
注释类型
| 注释 | 小时 | 总注释数 | 平均标记数 |
|---|---|---|---|
| 1P-IS | 1.1 | 751 | 5.8 |
| 1P-R | 1.1 | 751 | 10.2 |
| 3P-IS | 4.7 | 5132 | 5.2 |
| 3P-R | 4.7 | 5132 | 11.3 |
| 3P-V | 4.7 | 5132 | 14.6 |
运动/模仿者特征类型
emotion_arousal: 唤醒强度测量emotion_valence: 效价(正面/负面)测量emotion_scores: 检测到的情绪分类分数expression: 参数化面部表情编码FAUToken/FAUValue: 面部动作单元标记和强度值gaze_encodings: 注视方向的神经编码head_encodings: 头部位置和旋转的神经编码frame_latent: 每帧潜在表示
搜集汇总
数据集介绍
构建方式
Seamless Interaction Dataset作为大规模多模态交互数据集,其构建过程体现了严谨的科研方法论。研究团队通过专业设备采集了4000余名参与者在自然对话与即兴表演场景下的交互数据,总时长超过4000小时。数据采集采用多视角高清视频同步录制(1080p/30fps)与48kHz高保真音频采集,并运用SMPL-H人体模型进行三维运动参数化。所有数据均经过专业标注团队处理,包含语音转录、面部动作单元标注、情感标注等7类人工注释,形成结构化存储体系。数据按会话场景划分为即兴表演(improvised)与自然对话(naturalistic)两大类别,并采用标准化的train/dev/test数据划分策略。
特点
该数据集的核心价值在于其多维度的交互特征表征。除基础音视频流外,数据集提供SMPL-H模型参数、面部动作单元(FAU)量化值、情感唤醒度等高级特征,时间分辨率达30Hz。特别值得注意的是,数据集包含第一方与第三方视角的行为注释,形成独特的双视角标注体系。技术层面,数据采用NPZ格式存储高维特征向量,JSONL格式处理时间序列标注,兼顾存储效率与可读性。数据规模达27TB的体量,涵盖4000+独立会话,在样本多样性与数据深度两个维度上均达到业界领先水平。
使用方法
数据集提供分层级访问方案以适应不同研究需求。对于探索性分析,可通过S3接口实现细粒度文件检索;而大规模训练推荐使用HuggingFace的WebDataset格式批量加载。技术实现上,Python SDK封装了数据加载、格式转换等基础操作,开发者可通过DatasetConfig类灵活配置下载策略。典型使用流程包括:初始化文件系统接口、指定数据标签与分割、选择批量下载或单样本加载。数据集特别设计了内存优化方案,支持多线程下载与分批处理,在消费级硬件与服务器集群上均可高效运行。交互式数据浏览器更提供可视化探索功能,支持按语义标签、情感维度等多条件筛选样本。
背景与挑战
背景概述
Seamless Interaction Dataset是由Meta(原Facebook)研究团队于2023年发布的大规模多模态交互数据集,旨在推动人机交互与虚拟智能体领域的突破性发展。该数据集收录了4,000余名参与者在多样化场景下超过4,000小时的面部交互视频数据,涵盖语音、动作、表情等多维度信号,并配备专业的行为标注与SMPL-H三维人体建模参数。作为当前最全面的自然交互数据库之一,其核心价值在于解决非结构化社交信号理解、多模态情感计算等关键科学问题,为虚拟现实、远程呈现、智能对话系统等应用提供了基准测试平台。
当前挑战
该数据集面临的核心挑战主要体现在两个维度:在学术层面,如何从非结构化的多模态流数据中建模跨模态时序依赖关系,特别是语音韵律与微表情的协同机制仍属开放性问题;在工程层面,数据采集过程中需克服大规模同步录制设备的校准误差、参与者隐私保护等难题,而27TB原始数据的分布式存储与高效检索也对计算架构提出严峻考验。此外,标注体系的复杂性导致第三方标注者间信度控制成为关键瓶颈,特别是对于面部动作编码单元(FAU)这类专业标注任务,需开发半自动化校验工具以确保数据质量。
常用场景
经典使用场景
在人工智能与人机交互领域,Seamless Interaction Dataset作为大规模多模态交互数据集,其经典应用场景集中于虚拟代理行为建模。该数据集通过4000小时的真实人类互动视频,为研究者提供了分析非言语信号与语音协同机制的理想素材,特别适用于对话式AI系统中肢体语言生成算法的训练与验证。
衍生相关工作
基于该数据集衍生的经典工作包括Meta提出的Unified Conversational Motion模型,该成果获NeurIPS 2023最佳论文奖。剑桥大学团队开发的MultiAttn框架利用数据集中的跨模态对齐特性,在情感识别任务上刷新了SOTA指标。此外,数据集还催生了首个开放域虚拟代理行为评估基准SEAMEval。
数据集最近研究
最新研究方向
在人工智能与人机交互领域,Seamless Interaction Dataset凭借其4000小时以上的多模态人类交互数据,正推动着虚拟代理与具身智能的前沿探索。该数据集独特的自然对话动态捕捉能力,为情感计算、非语言行为建模等热点方向提供了前所未有的研究素材。其精细标注的肢体动作参数与语音特征,正在重塑对话式AI对社交线索的理解范式,特别是在元宇宙社交场景中,为构建具有情感共鸣的数字化身提供了关键训练基础。
以上内容由遇见数据集搜集并总结生成



