SuSuInterActs

github2026-04-14 更新2026-04-10 收录

下载链接：

https://github.com/SentiAvatar/SentiAvatar

下载链接

链接失效反馈

官方服务：

资源简介：

SuSuInterActs数据集是一个对话语料库，包含21K个片段，37小时的同步语音、全身动作和面部表情数据，通过光学动作捕捉技术捕获。

The SuSuInterActs Dataset is a conversational corpus containing 21,000 segments and 37 hours of synchronized speech, full-body motion and facial expression data, all captured using optical motion capture technology.

创建时间：

2026-04-08

原始信息汇总

SentiAvatar 数据集概述

数据集基本信息

数据集名称: SuSuInterActs
所属项目: SentiAvatar
数据集地址: https://huggingface.co/datasets/Chuhaojin/SuSuInterActs
论文地址: https://arxiv.org/abs/2604.02908
项目主页: https://sentiavatar.github.io/

数据集规模与内容

数据总量: 21,000个片段，总计37小时。
采集方式: 通过光学动作捕捉系统，围绕单一角色采集。
同步模态: 语音、全身动作和面部表情完全同步。
数据划分:
- 训练集: 19,000个样本
- 验证集: 635个样本
- 测试集: 1,479个样本

数据格式与结构

数据集包含以下四种类型的数据，存储于SuSuInterActs/目录下：

数据类型	目录	格式	描述
面部数据	`arkit_data/`	`.npy`	ARKit面部BlendShape值（51维）
音频数据	`wav_data/`	`.wav`	16kHz单声道语音音频
动作数据	`motion_data/`	`.npy`	63个关节的6D旋转 + 根部位移
文本数据	`text_data/`	`.json`	动作/表情标签 + 对话文本
划分文件	`split/`	`.txt`	训练/验证/测试集划分文件

动作数据详细格式

每个.npy文件是一个字典，包含以下键值对： python { "body": np.ndarray, # 形状 (T, 153) = 根部位移(3) + 身体6D旋转(25×6) "left": np.ndarray, # 形状 (T, 120) = 左手6D旋转(20×6) "right": np.ndarray, # 形状 (T, 120) = 右手6D旋转(20×6) }

帧率: 20 FPS
关节总数: 63个（25个身体关节 + 20个左手关节 + 20个右手关节）
旋转表示: 6D旋转表示法
根部位移: 速度形式（差分编码）

文本数据格式

text_data/motion2text.json文件包含动作到文本的映射，格式示例如下： json { "path/to/sample_name": "【表情：认真聆听】【动作：缓慢点头】嗯嗯，这样啊...", ... }

数据集特点与用途

高质量多模态数据: 提供了大规模、高质量的语音-动作-表情同步数据。
研究用途: 用于训练和评估富有表现力的交互式3D数字人生成模型。
基准测试: 在该数据集上的评估指标包括R@K（检索召回率）、FID（Fréchet Inception Distance）、Diversity（多样性）和ESD（事件同步距离）。

许可证

许可证类型: CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial 4.0 International)
使用限制: 仅限非商业用途。禁止将本项目、其模型或数据用于任何商业目的。

搜集汇总

数据集介绍

构建方式

在构建富有表现力的交互式数字人领域，高质量多模态数据集的匮乏长期制约着相关技术的发展。SuSuInterActs数据集通过光学动作捕捉技术，围绕单一虚拟角色采集了21,000个对话片段，总计37小时的同步数据。该数据集以20帧每秒的采样率，精确记录了语音、全身运动及面部表情的协同变化，其中运动数据涵盖63个关节的6D旋转表示与根节点位移信息。数据采集过程确保了多模态信号在时间维度上的严格对齐，为构建语义一致且韵律同步的数字人生成模型奠定了坚实基础。

特点

该数据集的核心特征在于其规模宏大且模态丰富，提供了语音、文本、全身运动与面部表情的完整四元组数据。运动数据采用精细的解剖学划分，包含25个身体关节、20个左手关节和20个右手关节的6D旋转表示，并辅以根节点速度形式的位移编码。面部数据则采用ARKit的51维BlendShape参数进行表征。数据集经过严谨划分，包含19,000个训练样本、635个验证样本及1,479个测试样本，确保了模型训练与评估的可靠性。其多模态同步特性为研究语音驱动的高保真、细粒度人体运动生成提供了独特价值。

使用方法

为有效利用该数据集，用户需遵循标准化的数据处理流程。首先，通过提供的Python脚本对原始音频与运动数据进行预处理，提取HuBERT音频特征与运动令牌。数据集支持两种主要应用模式：批量评估模式需启动vLLM服务，随后在完整测试集上运行推理脚本，生成BVH格式的运动文件与对应的JSON动画数据；单样本推理模式则允许用户输入自定义音频文件与动作文本描述，实时生成同步的运动序列。生成的输出可直接导入Blender等三维软件进行可视化，或用于后续的定量评估，如计算检索召回率、Fréchet距离等指标。

背景与挑战

背景概述

在数字人与具身智能的交叉领域，构建能够自然交互、富有表现力的虚拟角色是前沿研究的关键目标。SuSuInterActs数据集于2026年由中国人民大学高瓴人工智能学院与SentiPulse团队联合创建，核心研究人员包括金楚豪、张瑞等。该数据集旨在解决对话场景下多模态动作生成的瓶颈，即缺乏大规模、高质量、同步的语音、全身运动与面部表情数据。通过光学动作捕捉技术采集了包含2.1万段剪辑、总计37小时的数据，为驱动数字人实现语义对齐与韵律同步的精细运动提供了重要资源，显著推动了交互式三维数字人生成技术的发展。

当前挑战

SuSuInterActs数据集所针对的领域挑战在于实现对话驱动的、富有表现力的三维人体运动生成，这要求模型能够同时理解高层语义并实现细粒度的时间同步。具体而言，该领域需克服语义到动作映射的模糊性、运动与语音韵律的帧级对齐，以及生成动作的自然性与多样性之间的平衡等难题。在数据集构建过程中，挑战主要集中于多模态数据的同步采集与标注。光学动作捕捉系统需精确对齐语音、身体运动及面部表情数据，确保时间戳的一致性；同时，为大规模对话剪辑标注高质量的动作与表情标签，亦是一项耗时且需要专业知识的艰巨任务。

常用场景

经典使用场景

在虚拟数字人技术领域，SuSuInterActs数据集为构建富有表现力的交互式3D角色提供了关键的多模态数据基础。该数据集通过光学动作捕捉技术，同步采集了语音、全身动作及面部表情数据，共计21,000个片段、37小时时长，覆盖了丰富的对话交互场景。其最经典的使用场景在于训练和评估语音驱动的人体动作生成模型，特别是那些需要精细对齐语义内容与韵律节奏的生成任务。研究人员利用该数据集的高质量对齐数据，能够开发出能够实时生成自然、协调且情感丰富的虚拟角色动作的系统，为数字人交互的真实性和沉浸感设定了新的基准。

实际应用

该数据集的实际应用价值广泛体现在需要高拟真度人机交互的领域。在虚拟现实与元宇宙中，基于SuSuInterActs训练的模型能够驱动虚拟化身进行自然对话和情感表达，提升社交临场感。在游戏与影视制作行业，该技术可用于快速生成角色动画，降低动作捕捉成本并提高制作效率。此外，在教育与远程协作场景下，具备丰富非语言行为的虚拟教师或助手能增强沟通效果与学习体验。其支持实时生成的能力，更是为在线直播、虚拟客服等对交互实时性要求高的应用场景提供了可行的技术解决方案。

衍生相关工作

围绕SuSuInterActs数据集，已衍生出一系列具有影响力的研究工作。其配套框架SentiAvatar提出的“规划-填充”架构，将句子级语义规划与帧级韵律驱动插值解耦，成为该领域的一个重要范式。该工作启发了后续研究如何更有效地结合大型语言模型的语义理解能力与音频特征的细粒度控制。此外，数据集本身作为评估基准，推动了如EMAGE、A2M-GPT、MoMask等多种音频驱动或文本驱动动作生成方法的性能比较与迭代优化。这些工作共同深化了对多模态生成中语义一致性、时序同步性以及动作多样性等关键问题的理解。

以上内容由遇见数据集搜集并总结生成