Seamless Interaction Dataset
收藏arXiv2025-06-28 更新2025-07-02 收录
下载链接:
https://github.com/facebookresearch/seamless_interaction
下载链接
链接失效反馈官方服务:
资源简介:
Seamless Interaction数据集是一个大规模的面对面交互视频数据集,由Meta公司收集,包含超过4,000小时的视频,涉及超过4,000名参与者,涵盖多样化的交互场景。该数据集旨在推动社交智能AI技术的发展,帮助AI理解双人交互中的行为动态,并生成与人类言语相协调的身体运动和面部表情。数据集不仅包括自然对话,还包括由专业演员即兴创作的对话,以涵盖更广泛的行为模式。此外,数据集还提供了丰富的元数据和标注,支持多种评估方法,以确保生成的交互质量。
The Seamless Interaction Dataset is a large-scale in-person conversational video dataset collected by Meta. It contains over 4,000 hours of video footage involving more than 4,000 participants, covering a diverse array of interaction scenarios. This dataset aims to advance the development of socially intelligent AI technologies, empowering AI to understand behavioral dynamics in two-person interactions and generate bodily movements and facial expressions synchronized with human speech. In addition to natural conversations, the dataset also includes dialogues improvised by professional actors to cover a broader spectrum of behavioral patterns. Furthermore, the dataset provides rich metadata and annotations that support multiple evaluation methods to ensure the quality of generated interactions.
提供机构:
Meta
创建时间:
2025-06-28
原始信息汇总
Seamless Interaction Dataset 概述
数据集简介
- 名称: Seamless Interaction Dataset
- 规模: 4000+小时人类互动数据,涵盖4000+参与者
- 类型: 多模态数据集(视频、音频、文本、动作捕捉等)
- 应用领域:
- 虚拟代理与具身AI
- 自然人机交互
- 高级远程呈现体验
- 多模态内容分析工具
- 动画与合成内容生成
数据集结构
主要分类
- Improvised: 基于预定义场景的引导式互动(至少包含专业演员)
- Naturalistic: 普通人进行的提示性对话
目录结构
seamless_interaction/ ├── improvised/ # 引导式互动 │ ├── dev/ # 开发集 │ ├── test/ # 测试集 │ └── train/ # 训练集 └── naturalistic/ # 自然对话 ├── dev/ ├── test/ └── train/
数据内容
模态与特征
| 模态 | 描述 | 文件格式 | 采样率 |
|---|---|---|---|
| 视频 | 高清面对面录像 | MP4 (H.264) | 30/29.97 FPS |
| 音频 | 降噪分离声道音频 | WAV | 48kHz |
| 文本 | 时间对齐的语音转录 | JSONL | - |
| SMPL-H | 3D人体模型参数 | NPY | 30Hz |
| 运动特征 | 量化模仿者运动数据 | NPY | 30Hz |
| 标注 | 人类行为标注 | JSON | - |
| VAD | 语音活动检测 | JSONL | 100Hz |
| 关键点 | 面部和身体关键点 | NPY | 30Hz |
标注类型
| 标注类型 | 小时数 | 标注总数 | 平均标记数 |
|---|---|---|---|
| 1P-IS | 1.1 | 751 | 5.8 |
| 1P-R | 1.1 | 751 | 10.2 |
| 3P-IS | 4.7 | 5132 | 5.2 |
| 3P-R | 4.7 | 5132 | 11.3 |
| 3P-V | 4.7 | 5132 | 14.6 |
下载选项
下载规模指南
| 规模 | 大小 | 方法 | 用例 | 脚本 |
|---|---|---|---|---|
| 单例 | ~100MB | S3 | 快速探索 | download_s3.py |
| 互动对 | ~200MB | S3 | 会话动态研究 | download_s3.py |
| 样本集 | ~1GB | S3/HF | 原型开发 | download_s3.py/download_hf.py |
| 会话组 | ~400MB | S3 | 深度会话上下文 | download_s3.py |
| 单批次 | ~50GB | HF | 本地开发 | download_hf.py |
| 多批次 | ~150GB+ | HF | 大规模分析 | download_hf.py |
| 不同分割 | 可变 | HF | 交叉验证 | download_hf.py |
| 完整数据集 | ~27TB | HF | 完整研究 | download_hf.py |
使用示例
数据加载
python from seamless_interaction.fs import SeamlessInteractionFS
初始化配置
config = DatasetConfig(label="improvised", split="dev") fs = SeamlessInteractionFS(config=config)
下载数据
fs.download_batch_from_hf(batch_idx=0)
WebDataset加载
python from datasets import load_dataset
dataset = load_dataset( "webdataset", data_files={split: urls}, split=split, streaming=True )
许可信息
- 许可证: CC-BY-NC 4.0
搜集汇总
数据集介绍

构建方式
Seamless Interaction Dataset的构建基于大规模面对面互动视频的收集,涵盖了超过4,000名参与者在多样化情境下的4,000小时互动内容。数据采集过程中,参与者被分为自然互动组(Naturalistic)和即兴表演组(Improvised),前者由未经训练的普通参与者完成,后者由专业演员根据特定提示进行即兴表演。数据采集地点覆盖美国六个州的十个城市,确保地理和文化多样性。所有互动均通过高清视频和音频同步记录,并辅以详细的元数据和注释,包括参与者关系、个性特征及互动类型等信息。
特点
Seamless Interaction Dataset的核心特点在于其多模态性和丰富的上下文标注。数据集不仅包含高清视频和音频,还提供了面部表情、身体动作的参数化表示(如SMPL-H模型和Imitator面部表征),以及语音和文本转录。此外,数据集通过当代心理学理论(如人际环状模型IPC)设计了互动提示,涵盖了广泛的情感和行为谱系。其标注系统包括第一方和第三方注释,详细记录了参与者的内部状态、行为动机及视觉行为元素,为研究社交互动中的非语言信号提供了独特资源。
使用方法
该数据集适用于训练和评估理解及生成双向互动动态的AI模型,尤其在虚拟代理、远程呈现和多模态内容分析领域。使用方法包括:1)利用音频和视觉特征训练生成模型(如扩散模型),合成与语音同步的面部表情和身体动作;2)通过控制变量(如情感唤醒度、语义手势)调节生成内容的表现力;3)结合LLM生成语音输入,实现上下文感知的交互行为生成。数据集还支持2D视频和3D虚拟形象渲染,可通过Hugging Face平台获取。
背景与挑战
背景概述
Seamless Interaction Dataset是由Meta等机构的研究团队于2025年创建的大规模人际交互数据集,旨在推动社交人工智能技术的发展。该数据集包含超过4,000小时的面对面交互视频,涉及4,000多名参与者在多样化情境下的互动。数据集的核心研究问题是理解和生成二元交互中的动态行为,包括语言和非语言信号的复杂交织。该数据集对虚拟代理、远程呈现体验和多模态内容分析工具的开发具有重要影响力,为相关领域的研究提供了宝贵资源。
当前挑战
Seamless Interaction Dataset面临的挑战主要包括:1) 在领域问题方面,需要解决如何准确捕捉和建模人际交互中复杂的语言和非语言信号,包括面部表情、手势和身体动作的同步生成;2) 在构建过程中,挑战包括确保数据采集的隐私和伦理标准,处理大规模视频数据的质量控制,以及开发有效的标注方法。此外,数据集还需要解决参与者多样性、交互情境的真实性以及数据同步等技术难题。
常用场景
经典使用场景
Seamless Interaction Dataset被广泛应用于研究人类面对面交流中的非语言行为,如手势、面部表情和身体动态。该数据集通过捕捉超过4,000小时的面对面互动视频,为研究人员提供了丰富的多模态数据,用于分析和模拟人类交流中的复杂动态。特别是在虚拟代理、远程呈现体验和多模态内容分析工具的开发中,该数据集发挥了关键作用。
衍生相关工作
Seamless Interaction Dataset衍生了许多相关研究,包括基于音频和视觉输入生成面部表情和身体动作的模型开发。例如,研究人员利用该数据集开发了能够同时处理说话和倾听行为的模型,以及能够根据对话内容生成语义相关手势的模型。此外,数据集还被用于评估生成模型的质量,推动了人机交互领域的技术进步。
数据集最近研究
最新研究方向
近年来,Seamless Interaction Dataset在社交智能AI领域的研究方向主要集中在多模态交互建模和虚拟代理的生成技术上。该数据集通过捕捉超过4,000小时的面对面互动视频,为研究双人交互的动态行为提供了丰富的资源。前沿研究包括开发能够同时理解和生成双人行为动态的AI模型,这些模型不仅能够处理语音输入,还能结合视觉行为生成相应的面部表情和身体动作。此外,研究者们还探索了可控的运动模型,这些模型能够根据情感响应和表达水平进行调整,并生成更具语义相关性的手势。这些技术的进步为虚拟代理、远程呈现体验和多模态内容分析工具的发展提供了新的可能性。
相关研究论文
- 1Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale DatasetMeta · 2025年
以上内容由遇见数据集搜集并总结生成



