JWB-DH-V1
收藏arXiv2025-07-29 更新2025-07-30 收录
下载链接:
https://github.com/deepreasonings/WholeBodyBenchmark
下载链接
链接失效反馈官方服务:
资源简介:
JWB-DH-V1数据集是一个大规模的多模态数据集,包含10,000个独特的身份,每个身份在约200个不同的场景配置中出现了2百万个视频样本。该数据集旨在解决当前扩散模型在生成全身运动和自然语音时存在的多模态一致性难题。数据集内容涵盖了身体姿态、手势、站立姿势和口语的音频随时间的细粒度多模态对齐。该数据集为评估和推进集成面部动画与全身运动的方法提供了基准,确保与生成的语音音频保持一致。
The JWB-DH-V1 dataset is a large-scale multimodal dataset consisting of 10,000 unique identities. Each identity is presented in approximately 200 distinct scene configurations, yielding a total of 2 million video samples. This dataset is developed to address the multimodal consistency challenge that current diffusion models encounter when generating full-body motions and natural speech. The dataset features fine-grained temporal multimodal alignment across bodily postures, gestures, standing poses, and spoken audio. It serves as a benchmark for evaluating and advancing methods that integrate facial animation and full-body motion, while ensuring consistency with the generated speech audio.
提供机构:
中国独立研究者、美国马萨诸塞大学波士顿分校计算机科学系、新加坡国立大学
创建时间:
2025-07-29
原始信息汇总
Whole-Body Benchmark Dataset 概述
📖 数据集简介
- 目标:解决从单张静态肖像生成全身可动画化虚拟人像的评估空白
- 挑战:现有方法难以准确捕捉面部表情、全身动作、背景变化和身份一致性
- 特点:
- 开源多模态基准
- 提供全面标注和评估框架
- 专注于高质量全身可动画化虚拟人像生成
🎬 核心特性
- 多区域评估:全身、面部和手部区域专用指标
- 多模态标注:支持高质量虚拟人像生成的细粒度标注
- 评估框架:
- 客观指标:FID、E-FID、FVD、PSNR、SSIM、CSIM
- 主观指标:主体一致性、背景一致性、运动平滑度等6个维度
- 标准化方法:一致的测试协议确保公平比较
📊 评估指标
客观指标
- FID(视觉质量相似度)
- E-FID(结构一致性)
- FVD(时间连贯性)
- PSNR(重建精度)
- SSIM(感知相似度)
- CSIM(特征级相似度)
主观指标
- 主体一致性
- 背景一致性
- 运动平滑度
- 动态程度
- 美学质量
- 成像质量
🚀 使用指南
数据获取
- 学术研究用途需邮件申请:deepreasoninggo@gmail.com
- 需填写表格:https://drive.google.com/file/d/1BbnmMJcqu7uaJngu7pmg8UkeVNSRVPqg/view?usp=sharing
环境配置
- 要求:
- Python 3.7+
- CUDA 9.2+
- PyTorch 1.8+
- 安装步骤:
- 创建conda环境
- 安装PyTorch
- 安装MMEngine和MMCV
- 安装MMPose
数据集结构
whole-body-benchmark/ ├── gt_test/ # 测试视频真值 ├── 3-img/ # 提取的图像帧 ├── face_videos_v5/ # 面部区域视频 ├── hand_videos_v5/ # 手部区域视频 ├── FIDres/ # FID评估结果 ├── SCres/ # 主观一致性结果 └── evaluation/ # 评估脚本
📊 基准结果
包含全身、面部和手部区域的详细评估结果,涵盖多种方法的性能比较(具体数据见原始文档)。
🔧 技术细节
- FID_calculate.py:计算客观指标
- SC_calculate.py:处理主观一致性评分
- process_video_hands_videos.py:视频区域提取
📝 引用
包含多篇相关研究论文的引用信息(具体引用格式见原始文档)。
📄 许可
- MIT License
搜集汇总
数据集介绍

构建方式
在数字人技术快速发展的背景下,JWB-DH-V1数据集的构建采用了多模态数据采集策略,涵盖10,000个独特身份的200万视频样本。通过精细的场景配置与多维度标注(包括身体分割、关键点检测、运动文本描述及语音转录),实现了肢体动作与语音的细粒度对齐。数据采集过程严格遵循时空一致性原则,并采用DINO、CLIP等视觉特征提取技术确保样本质量。20,000个评估样本经过六项无参考视频指标验证,建立了完整的质量评估体系。
特点
该数据集的核心价值体现在其全身体协调性与多模态同步性。相较于传统聚焦面部或上半身的数据集,JWB-DH-V1首次实现了全身可动画化数字人的语音-动作联合标注,包含手部姿态、腿部站姿等细节运动标志。样本覆盖29种语言环境,通过LAION美学评分与MUSIQ视觉清晰度指标保证内容质量。独特的区域性能分析框架可独立评估面部、手部及全身生成效果,为数字人技术研究提供了前所未有的多维评估基准。
使用方法
研究者可通过文本提示或音频驱动两种方式调用数据集。视频生成模型需输入初始视频帧与运动描述文本,而语音驱动模型支持带/不带姿势引导的生成模式。评估阶段需分别计算12项核心指标(如FID、FVD、SSIM),并利用Gemini 2.5 Pro等大语言模型进行语音质量分析。数据集提供的分层标注体系支持细粒度研究,例如通过运动标志分析特定词汇对应的肢体动作规律。开源评估工具包可实现自动化区域性能对比与多模态一致性检测。
背景与挑战
背景概述
JWB-DH-V1数据集由Xinhan Di、Kristin Qi和Pengqian Yu等研究人员于2025年推出,旨在解决数字人领域中的多模态一致性挑战。随着扩散模型在视频生成领域的快速发展,现有方法在生成全身动作与自然语音的同步性方面仍存在显著不足。该数据集包含10,000个独特身份和200万视频样本,为评估音频-视频联合生成提供了大规模基准。其核心研究问题聚焦于如何实现高保真度的全身可动画化数字人,同时确保语音与动作的精细同步。该数据集的发布填补了现有评估框架在区域特异性分析和多模态一致性验证方面的空白,为数字人合成技术的进步提供了重要支撑。
当前挑战
JWB-DH-V1数据集面临两大核心挑战:在领域问题层面,现有模型难以实现面部、手部与全身动作的协调生成,导致语音驱动动画的局部与整体运动一致性不足;同时,音频-视频跨模态的细粒度同步仍缺乏有效评估标准。在构建过程中,数据采集需克服多模态对齐的复杂性,包括肢体运动语义标注与语音边界的精确匹配;此外,2百万样本的标注需平衡细粒度分割(如手部关节点)与整体运动描述,这对标注一致性与计算资源提出了极高要求。模型评估时出现的区域性能差异(如面部FID值300.98而全身达508.19)进一步凸显了全身动作合成的技术瓶颈。
常用场景
经典使用场景
在数字人技术快速发展的背景下,JWB-DH-V1数据集为研究者提供了一个全面的基准测试平台,用于评估联合生成全身说话虚拟形象和自然语音的多模态一致性。该数据集广泛应用于生成式人工智能领域,特别是在需要高保真度音频视频同步的场景中,如虚拟主播、在线教育以及远程会议系统。通过其大规模的多模态样本,研究者能够深入探索面部表情、手势动作与语音之间的复杂关联。
衍生相关工作
JWB-DH-V1数据集已经催生了一系列创新性研究。基于该基准,研究者开发了多种先进的联合音频视频生成模型,如采用分层时空先验同步的JavisDiT架构。同时,该数据集也促进了评估方法的发展,包括基于大型音频语言模型(LALM)的新型评估框架。这些衍生工作不仅推动了数字人技术的进步,也为多模态生成模型的标准化评估树立了新的标杆。
数据集最近研究
最新研究方向
随着数字人技术的迅猛发展,JWB-DH-V1数据集为联合全身说话头像与语音生成领域提供了重要的研究基准。该数据集通过大规模多模态样本和全面的评估协议,揭示了当前扩散模型在面部、手部与全身动作同步生成中的性能差异。前沿研究正聚焦于解决音频-视频细粒度对齐的挑战,探索从单帧输入实现稳定联合生成的创新方法。这一方向不仅推动了数字人应用的逼真度提升,也为跨模态生成模型的评估体系树立了新标准。
相关研究论文
- 1JWB-DH-V1: Benchmark for Joint Whole-Body Talking Avatar and Speech Generation Version 1中国独立研究者、麻省大学波士顿分校计算机科学系、新加坡国立大学 · 2025年
以上内容由遇见数据集搜集并总结生成



