InterEdit3D
收藏arXiv2026-03-13 更新2026-03-17 收录
下载链接:
https://github.com/YNG916/InterEdit
下载链接
链接失效反馈官方服务:
资源简介:
InterEdit3D是由卡尔斯鲁厄理工学院等机构构建的首个大规模双人运动编辑数据集,基于InterHuman数据集通过半自动检索与标注流程创建。该数据集包含5,161组源运动-目标运动-编辑文本三元组,强调空间、时间和协调层面的编辑,为交互感知运动编辑提供了挑战性基准。数据通过运动到运动检索和人工标注结合的方式构建,覆盖日常活动和专业交互场景,旨在解决多人3D运动编辑中缺乏配对数据和交互复杂性的问题,应用于角色动画、社交机器人等领域。
InterEdit3D is the first large-scale dual-person motion editing dataset constructed by institutions including Karlsruhe Institute of Technology, developed based on the InterHuman dataset via a semi-automatic retrieval and annotation workflow. This dataset contains 5,161 triplets of source motion, target motion and editing text, focusing on edits across spatial, temporal and coordination dimensions, providing a challenging benchmark for interactive-aware motion editing. The dataset is built through a combination of motion-to-motion retrieval and manual annotation, covering daily activity and professional interaction scenarios, aiming to address the issues of lacking paired data and interaction complexity in multi-person 3D motion editing, and can be applied to fields such as character animation and social robotics.
提供机构:
卡尔斯鲁厄理工学院; 湖南大学; 上海交通大学; 索非亚大学·INSAIT
创建时间:
2026-03-13
原始信息汇总
InterEdit 数据集概述
数据集基本信息
- 数据集名称:InterEdit
- 核心任务:文本引导的多人体3D运动编辑
- 实现方法:InterEdit 方法的实现
数据集内容与示例
数据集包含用于文本引导的多人体3D运动编辑的示例,重点关注双人运动编辑。
双人运动编辑演示
- 示例1
- 编辑指令:两人玩石头剪刀布,而不是握手。
- 对比:包含源运动与编辑后运动的GIF图示。
- 示例2
- 编辑指令:两人面对面互相出拳,而不是踢腿。
- 对比:包含源运动与编辑后运动的GIF图示。
- 示例3
- 编辑指令:两人面对面,而不是并排站立。
- 对比:包含源运动与编辑后运动的GIF图示。
- 示例4
- 编辑指令:两人肩并肩跳舞,而不是静止站立。
- 对比:包含源运动与编辑后运动的GIF图示。
数据准备与结构
-
数据下载:InterEdit3D数据集可从指定网页(https://drive.google.com/drive/folders/1DccBLYvhMCBGXvDJcR9yBdBdeDArEdX1?usp=drive_link)获取。
-
存放路径:需将数据置于
./data/interedit_processed目录下。 -
数据结构:
<DATA-DIR> ├── annots ├── motions_processed ├── motions_source ├── ignore_list.txt ├── test.txt ├── train.txt └── val.txt
模型与训练
- 预训练模型:
- 需准备评估模型(通过运行
bash prepare/download_evaluation_model.sh)。 - InterEdit的预训练检查点可从指定链接(https://drive.google.com/file/d/1hhjtksw8ZLHXV6ilG1ro0LRGKNKnPI3R/view?usp=drive_link)下载。
- 需准备评估模型(通过运行
- 训练:通过修改
./configs/model.yaml配置文件,并运行指定命令进行训练。 - 评估:通过运行指定命令,使用训练好的检查点进行评估。
搜集汇总
数据集介绍

构建方式
在三维人体运动编辑领域,多人物交互数据的稀缺性构成了研究的主要瓶颈。InterEdit3D数据集的构建采用了一种半自动化的检索与标注流程,其基础是InterHuman这一大规模双人交互数据集。通过将运动序列转换为AMASS特征,并利用预训练的TMR运动编码器获取语义嵌入,研究团队在潜在空间中进行运动到运动的检索。具体而言,每个序列被划分为重叠的200帧窗口,并为每个窗口检索其最相似的两个邻居,从而形成源-目标候选对。这些候选对的特点是其中一人的基础运动相似,但交互语义存在差异,这为“编辑变化、保留其余”的任务提供了理想素材。随后,标注人员为每一对运动编写描述如何从源运动转换到目标运动的编辑指令,最终经过质量筛选,形成了包含5,161个源-目标-文本三元组的数据集。
特点
InterEdit3D数据集的核心特点在于其专注于双人三维运动的指令式编辑,这填补了现有数据集中在多人物交互编辑方面的空白。与仅支持生成或单人编辑的数据集不同,该数据集提供了明确的源运动、目标运动及对应的文本编辑指令三元组,为模型学习在保持时空耦合的同时执行语义修改提供了直接监督。数据覆盖了丰富的编辑维度,包括空间关系(如距离、方向)、时间结构(如顺序、同步)、动作类别转换以及身体部位约束,确保了挑战的多样性。其构建过程强调交互层面的语义差异,使得数据集能够有效支撑对交互动态中同步性、角色切换等精细模式建模的研究。
使用方法
InterEdit3D数据集主要服务于文本引导的多人物三维运动编辑(TMME)这一新兴任务的模型训练与评估。在使用时,模型以源双人运动序列和文本编辑指令作为条件输入,目标是生成遵循指令且尽可能保留源运动中未修改部分的目标运动。该数据集被划分为训练、验证和测试集,并采用了基于交互身份的分离策略以避免数据泄露。评估通常采用检索指标,如生成到目标(g2t)和生成到源(g2s)的召回率,以及FID分数,以综合衡量模型的指令遵循度、编辑保真度与运动真实性。数据集为比较单人物编辑模型与多人物生成模型在该任务上的性能提供了基准,推动了交互感知运动编辑技术的发展。
背景与挑战
背景概述
InterEdit3D数据集由卡尔斯鲁厄理工学院等机构的研究团队于2026年提出,旨在解决文本引导的多人体三维运动编辑这一新兴任务。该数据集构建于大规模双人交互数据集InterHuman之上,通过半自动检索与人工标注流程,生成了5,161组源运动、目标运动与编辑指令三元组。其核心研究问题聚焦于如何在保持源运动时空一致性的前提下,根据文本指令精确修改多人交互中的语义、时序与空间关系,从而推动动画制作、虚拟角色与机器人交互等应用领域的发展。
当前挑战
InterEdit3D数据集面临的挑战主要体现在两个方面:其一,在领域问题层面,多人体运动编辑需克服交互语义的复杂性,包括双人同步、角色切换、接触时序等动态耦合关系的建模,细微的修改可能破坏整体交互一致性;其二,在构建过程中,由于缺乏现成的多人体编辑配对数据,研究团队需设计基于运动检索的流水线,从生成式数据中筛选语义相似但交互结构相异的运动对,并依赖人工标注确保指令的准确性与多样性,这一过程对数据质量与规模提出了较高要求。
常用场景
经典使用场景
在三维人体运动生成领域,InterEdit3D数据集为文本引导的双人运动编辑任务提供了关键支持。该数据集通过构建源运动、目标运动与编辑指令的三元组,使得研究者能够系统探索多人在交互场景下的运动语义修改。经典使用场景包括基于自然语言指令对双人互动动作进行精细化调整,例如将握手动作转换为击掌,或调整舞蹈中的同步节奏,从而在保持原有运动骨架的基础上实现交互语义的精准转换。
实际应用
在实际应用中,InterEdit3D数据集为动画制作、游戏设计、社交机器人及虚拟代理等场景提供了高效的运动编辑工具。例如,在角色动画中,动画师可通过文本指令快速调整双人互动动作,如将战斗场景中的攻击动作修改为防御姿态,而无需重新制作整个运动序列。在虚拟现实训练中,该技术能够生成多样化的交互数据,用于增强沉浸式体验或机器人协作算法的训练,显著提升了内容创作的效率与灵活性。
衍生相关工作
基于InterEdit3D数据集,研究者提出了InterEdit框架,该工作引入了语义感知计划令牌对齐与交互感知频率令牌对齐策略,成为多人在运动编辑领域的奠基性方法。相关衍生工作包括对现有单人编辑模型(如MotionFix、MotionLab)与多人生成模型(如InterGen、TIMotion)的适配与扩展,推动了交互动态建模、时序同步控制等方向的深入探索。这些工作共同丰富了文本驱动运动编辑的研究体系,并为长时序互动编辑、群体行为仿真等后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



