SuSuInterActs

Hugging Face2026-04-18 更新2026-04-19 收录

下载链接：

https://huggingface.co/datasets/Chuhaojin/SuSuInterActs

下载链接

链接失效反馈

官方服务：

资源简介：

SuSuInterActs 是一个高质量的多模态对话动作捕捉数据集，围绕虚拟角色“苏苏”构建。该数据集通过专业光学动作捕捉技术采集，包含同步的多模态数据：自然中文对话语音、63关节全身运动数据（包括身体、手部和手指的6D旋转）、51维ARKit BlendShape面部表情系数，以及丰富的文本标注（动作标签、表情标签和对话文本）。数据集总规模约12GB，包含21,133个片段，总时长约37小时，平均每个片段约5.4秒。数据以20 FPS的帧率采集（运动和面部），音频采样率为16kHz。数据集适用于文本到3D、机器人学和文本到语音等任务，尤其适合需要表达性和交互性数字人类的研究。数据集按训练集（19,019个）、验证集（635个）和测试集（1,479个）划分，并提供了详细的目录结构和数据格式说明。

创建时间：

2026-04-08

原始信息汇总

SuSuInterActs 数据集概述

数据集基本信息

数据集名称: SuSuInterActs
许可证: CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial 4.0 International)
任务类别: 文本到3D、机器人技术、文本到语音
核心语言: 中文 (普通话)
标签: 交互式、动作、虚拟形象
规模类别: 10K < n < 100K
相关论文: SentiAvatar: Towards Expressive and Interactive Digital Humans (arXiv:2604.02908)

核心内容与规模

SuSuInterActs 是一个围绕单一虚拟角色 苏苏 (SuSu) 构建的高质量对话动作捕捉数据集。它包含通过专业光学动作捕捉系统同步采集的多模态数据。

关键统计信息:

统计项	数值
总片段数	21,133
总时长	约 37 小时
平均片段时长	约 5.4 秒
帧率	动作与面部：20 FPS；音频：16kHz
骨骼关节数	63个 (25个身体关节 + 20个左手关节 + 20个右手关节)
面部维度	51维 (ARKit BlendShape 系数)
数据划分	训练集：19,019 / 验证集：635 / 测试集：1,479

多模态数据构成

数据集包含以下四种同步的多模态数据：

🗣️ 语音音频: 自然的中文对话语音，格式为 WAV (16-bit PCM, 单声道，16kHz 采样率)。
💃 全身动作: 包含 63 个关节的骨骼数据 (身体、双手及手指)，使用 6D 旋转表示。
🎭 面部表情: 51 维的 ARKit BlendShape 系数，数值范围在 [0, 1]。
📝 丰富文本标注: 包含动作标签、表情标签和对话转录文本。

数据结构与格式

数据集总大小约为 12 GB，目录结构如下：

SuSuInterActs/ ├── motion_data/ # 全身动作数据 (4.9 GB)，格式为 .npy ├── wav_data/ # 语音音频数据 (6.3 GB)，格式为 .wav ├── arkit_data/ # 面部表情数据 (750 MB)，格式为 .npy ├── text_data/ # 文本标注数据 (8 MB)，主文件为 motion2text.json └── split/ # 数据划分文件 (.txt)

动作数据格式 (*.npy): 每个文件是一个包含4个键的Python字典：

body: 形状为 (T, 153)，包含根节点偏移速度 (3维) 和 25 个身体关节的 6D 旋转。
left: 形状为 (T, 120)，包含 20 个左手关节的 6D 旋转。
right: 形状为 (T, 120)，包含 20 个右手关节的 6D 旋转。
positions: 形状为 (T, 63, 3)，为 63 个关节的全局 3D 位置 (用于可视化)。

文本标注格式: 标注字符串格式为：【表情：<表情标签>】【动作：<动作标签>】<对话转录文本>。

表情标签示例: 微笑、认真、担忧、调皮。
动作标签示例: 缓慢点头、双臂展开、头微向右歪。

划分文件格式: 每个 .txt 文件每行包含一个不带扩展名的相对路径，用于标识一个数据片段。

使用许可与引用

许可: 允许用于学术和非商业研究，禁止商业用途。商业使用需联系作者获取许可。
引用: bibtex @article{jin2026sentiavatar, title={SentiAvatar: Towards Expressive and Interactive Digital Humans}, author={Jin, Chuhao and Zhang, Rui and Gao, Qingzhe and Shi, Haoyu and Wu, Dayu and Jiang, Yichen and Wu, Yihan and Song, Ruihua}, journal={arXiv preprint arXiv:2604.02908}, year={2026} }

搜集汇总

数据集介绍

构建方式

在数字人交互研究领域，高质量多模态数据的获取至关重要。SuSuInterActs数据集围绕虚拟角色“苏苏”构建，通过专业光学动作捕捉系统同步采集了语音、全身运动与面部表情数据。数据采集过程涉及超过40个录制会话，最终形成了包含21,133个片段的语料库，总时长约37小时。每个片段均以20帧每秒的速率记录63个关节的6D旋转运动、51维ARKit混合形状面部系数及16kHz采样率的普通话语音，并辅以结构化的文本标注，确保了多模态数据在时间维度上的精确对齐。

特点

该数据集的核心特征在于其大规模、高质量的多模态同步性。它不仅提供了涵盖身体、双手及手指的精细骨架运动数据，还集成了基于ARKit标准的面部表情参数，与自然对话语音及中文文本转录形成多维对应。数据标注体系尤为丰富，每个片段均包含描述性的表情标签与动作标签，为理解非语言行为与语言内容的关联提供了结构化信息。超过两万个片段在训练、验证和测试集上的合理划分，也为模型开发与评估奠定了坚实基础。

使用方法

为便于研究者使用，数据集按模态组织了清晰的目录结构，并提供了标准化的数据分割文件。用户可通过分割文件中的路径标识，便捷地加载对应的运动、面部、音频及文本标注文件。运动数据以NumPy字典格式存储，可直接用于模型训练；面部数据为51维浮点数组；音频为标准WAV格式。数据集配套的代码示例展示了如何同步加载多模态数据，并提供了将数据转换为BVH格式以进行可视化的工具，支持在表达性数字人生成、多模态对话建模等任务上的直接应用。

背景与挑战

背景概述

在虚拟数字人技术蓬勃发展的背景下，高保真、多模态交互数据的匮乏成为制约其情感表达与自然交互能力提升的关键瓶颈。SuSuInterActs数据集应运而生，由SentiPulse团队于2026年创建，并伴随论文《SentiAvatar: Towards Expressive and Interactive Digital Humans》发布。该数据集围绕单一虚拟角色“苏苏”，通过专业光学动作捕捉技术，同步采集了长达37小时、包含21,133个片段的语音、全身运动、面部表情及丰富文本标注，构成了一个大规模中文多模态对话语料库。其核心研究目标在于为构建具有丰富情感表现力和自然交互能力的数字人提供高质量、细粒度的训练与评估基准，对推动计算机图形学、人机交互与多模态人工智能的融合发展具有显著影响力。

当前挑战

该数据集旨在解决数字人领域生成具有情感一致性与交互自然性的多模态行为序列这一核心挑战。具体而言，其面临的领域问题挑战包括：如何精确建模语音、肢体动作、面部表情与语义内容之间的复杂时空对齐与协同关系，以及如何生成既符合物理规律又富有表现力的连续人体运动。在构建过程中，挑战同样艰巨：确保多通道数据在时间轴上的严格同步需要精密的硬件校准与后期处理；对高自由度人体骨架（63个关节）和51维面部混合形状系数进行高质量、无噪声的捕捉与标注，耗费了大量专业资源；此外，为海量中文对话片段手动添加准确的动作与表情标签，也是一项极其繁琐且需要高度一致性的工作。

常用场景

经典使用场景

在虚拟数字人及具身智能领域，构建能够自然交互的虚拟角色需要高质量的多模态数据作为支撑。SuSuInterActs数据集以其同步的语音、全身运动与面部表情数据，为生成式模型提供了经典的训练与评估基准。研究者常利用该数据集驱动虚拟角色生成与语音、文本同步的逼真肢体动作与面部表情，实现从单一模态到多模态的连贯生成，为构建具有表现力的交互式数字人奠定数据基础。

解决学术问题

该数据集有效解决了多模态生成与对齐中的关键学术挑战。传统研究往往面临运动、语音与表情数据割裂或标注稀疏的问题，SuSuInterActs通过提供大规模、精细对齐的多模态序列，为探索跨模态联合建模、时序对齐与语义一致性提供了可靠实验平台。其意义在于推动了从孤立模态生成到协同多模态生成的范式转变，对提升虚拟角色的交互自然度与情感表现力产生了深远影响。

衍生相关工作

围绕SuSuInterActs数据集，已衍生出多项经典研究工作。其关联论文《SentiAvatar: Towards Expressive and Interactive Digital Humans》提出了一个端到端的表达性数字人生成框架。后续研究在此基础上，进一步探索了基于扩散模型的运动生成、跨模态条件控制以及少样本自适应等方向，推动了多模态数字人技术在动作细腻度、情感表达与个性化定制方面的持续进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集