ReactMotionNet

github2026-03-27 更新2026-03-28 收录

下载链接：

https://github.com/awakening-ai/ReactMotion

下载链接

链接失效反馈

官方服务：

资源简介：

一个大规模的数据集，将说话者的发声与多个候选听众动作配对，这些动作标注了不同程度的适当性（金/银/负面）。

This is a large-scale dataset that pairs speakers' vocalizations with multiple candidate listener actions, where the actions are annotated with varying degrees of appropriateness (gold/silver/negative).

创建时间：

2026-03-16

原始信息汇总

ReactMotion 数据集概述

数据集基本信息

数据集名称：ReactMotionNet
核心任务：从说话者话语生成反应性倾听者动作
任务描述：根据说话者的话语（文本、音频、情感），生成自然、恰当且多样化的倾听者身体动作。

数据集构成与内容

数据基础：基于 HumanML3D 3D 人体动作-语言数据集构建。
数据特点：捕捉倾听者行为的一对多性质，即同一说话者话语可对应多种恰当的倾听者反应。
样本标注：包含多个候选倾听者动作，并根据其恰当性程度进行分级标注（gold / silver / negative）。

数据准备与结构

所需基础数据

HumanML3D 数据：需按官方指南下载并放置于 dataset/HumanML3D/ 目录下，包含关节特征向量、动作描述文本及划分文件。
动作 VQ-VAE 编码：需使用预训练的运动 VQ-VAE 对 HumanML3D 动作进行预编码，生成 .npy 格式的码本索引文件。
说话者音频：
- 音频编码：预提取的 Mimi 编码器码本索引（.npz 格式），下载链接：https://drive.google.com/drive/folders/1FVbEp13IQp95L6W0--mbPAx4os7TQnBA?usp=sharing
- 原始音频：原始说话者音频文件（.wav 格式），下载链接：https://drive.google.com/drive/folders/1u9TT1mbeQyoWvhmgO3BNmlHMSwVriplr?usp=sharing
CSV 划分文件：需准备 train.csv、val.csv、test.csv，包含以下关键列：
- group_id：唯一组标识符
- item_id：唯一项目标识符
- tier_label：样本质量等级（gold / silver / neg）
- speaker_transcript：说话者转录文本
- speaker_emotion：说话者情感标签
- listener_motion_caption：倾听者动作文本描述
- motion_id：动作文件 ID
- speaker_audio_wav：音频文件词干名

关联模型

ReactMotion 1.0：生成器模型（文本 + 音频 + 情感 → 动作），Hugging Face 地址：https://huggingface.co/awakening-ai/ReactMotion1.0
ReactMotion-Judge：用于最佳选择的多模态评判网络，Hugging Face 地址：https://huggingface.co/awakening-ai/ReactMotion-Judge

使用与评估

训练：支持多种条件模式组合（如仅文本、文本+情感、文本+音频+情感等）进行生成器与评判网络的训练。
评估协议：包含针对反应恰当性的偏好导向评估协议，以及 FID、多样性等指标。

引用

相关论文：arXiv:2603.15083
引用格式详见 README 文件。

搜集汇总

数据集介绍

构建方式

在非语言交流研究领域，构建能够捕捉人类反应多样性的数据集至关重要。ReactMotionNet数据集的构建过程体现了对听众行为非确定性本质的深刻理解，通过精心设计的多模态配对机制，将说话者的语音内容与听众的身体动作进行关联。该数据集以HumanML3D三维人体运动语言数据集为基础，整合了说话者的文本转录、音频波形及情感标签，并针对每个说话者话语标注了多个具有不同适宜性等级的听众动作候选，形成了包含黄金、白银及负面样本的三层质量体系。这种构建方式不仅确保了数据的规模与多样性，更通过精细的层次化标注，为模型学习反应行为的适宜性边界提供了结构化支撑。

特点

ReactMotionNet数据集的核心特征在于其全面捕捉了人际互动中听众反应的复杂性与多样性。该数据集通过融合文本、音频、情感及运动四种模态，构建了丰富的多模态交互场景，其中每个说话者话语都对应着多个经过质量分级的听众动作，这种一对多的映射关系真实反映了人类反应的固有非确定性。数据集特别引入了基于偏好的排序标注机制，使得不同适宜性等级的动作样本能够形成对比学习的基础。这种结构设计不仅提升了数据的语义密度，更为生成模型提供了学习反应行为微妙差异的可能性，使得模型能够区分高度适宜、一般适宜及不适宜的反应动作。

使用方法

在生成式人工智能与人机交互的研究中，ReactMotionNet数据集为训练和评估反应性动作生成模型提供了标准化基准。研究人员可通过下载预处理的数据分割文件，按照指定的目录结构组织运动特征向量、音频编码及元数据，并利用提供的训练脚本启动模型学习过程。数据集支持灵活的模态组合条件输入，允许研究者根据实验需求选择纯文本、纯音频或融合多模态信息的训练模式。评估阶段可使用内置的指标计算脚本，对生成动作的逼真度、多样性及反应适宜性进行量化分析，同时配合JudgeNetwork进行最佳样本筛选，实现从数据准备到模型训练再到性能评估的完整研究闭环。

背景与挑战

背景概述

在人际交流中，非语言行为如肢体动作承载着丰富的情感与意图信息，对于构建自然的人机交互系统至关重要。ReactMotionNet数据集由来自阿卜杜拉国王科技大学、深圳大学及诺丁汉大学等机构的科研团队于2026年创建，旨在应对“从说话者话语生成反应性听者动作”这一新兴任务。该数据集通过整合文本、音频、情感与动作模态，并引入基于偏好的标注机制，为生成多样化且符合语境的身体运动提供了大规模、高质量的数据基础，显著推动了多模态生成模型在社交机器人、虚拟角色动画等领域的应用发展。

当前挑战

该数据集致力于解决听者反应动作生成任务中的核心挑战：人类反应本质上具有非确定性，同一话语可能引发多种合理但各异的身体回应，这要求模型具备捕捉一对多映射关系的能力。在构建过程中，研究团队面临多模态数据对齐与标注的复杂性，需精确协调语音、文本、情感标签与三维动作序列，并设计分层标注体系以区分黄金、白银及负面样本，确保数据质量与多样性。此外，如何有效融合异构模态信息并建立可靠的评估协议，以衡量生成动作的恰当性与自然度，亦是数据集构建与模型训练中的关键难题。

常用场景

经典使用场景

在社交互动与虚拟人机交互领域，ReactMotionNet数据集为生成听众对说话者话语的响应性身体动作提供了关键数据支撑。该数据集通过配对说话者的文本、音频及情感信息与多种听众动作候选，并标注其适宜性等级，为建模非确定性的人类反应行为奠定了坚实基础。其经典使用场景在于训练多模态生成模型，以模拟自然对话中听众的非语言反馈，如点头、手势或姿态调整，从而增强虚拟代理或数字人的社交真实感。

解决学术问题

该数据集有效应对了人机交互与计算机图形学中听众反应生成的非确定性问题。传统方法常将听众行为视为确定性映射，忽视了同一话语可能引发多样合理反应的现实。ReactMotionNet通过提供多层次适宜性标注，支持偏好排序目标训练，使模型能够学习生成既自然又贴合语境的多样化动作。这解决了生成动作的单一性与僵化问题，推动了多模态条件生成与社交信号理解研究的深入。

衍生相关工作

围绕ReactMotionNet数据集，已衍生出系列经典研究工作。其核心框架ReactMotion基于T5架构，统一建模文本、音频、情感与动作，并引入偏好排序目标，成为多模态反应生成领域的代表性方法。配套的JudgeNetwork通过多模态对比评分实现最佳候选选择，进一步完善了生成-评估流程。这些工作共同推动了从传统确定性生成到非确定性偏好学习范式的转变，为后续基于人类反馈的强化学习在动作生成中的应用开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集