audio2photoreal

github2024-05-05 更新2024-05-31 收录

下载链接：

https://github.com/facebookresearch/audio2photoreal

下载链接

链接失效反馈

官方服务：

资源简介：

用于从音频驱动生成逼真Codec Avatar的代码和数据集

Code and dataset for generating realistic Codec Avatars from audio-driven processes

创建时间：

2024-01-02

原始信息汇总

数据集概述

数据集名称

名称: From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

数据集内容

训练代码
测试代码
预训练的运动模型
数据集访问权限

数据集结构

目录结构:

|-- dataset/ |-- PXB184/ |-- data_stats.pth |-- scene01_audio.wav |-- scene01_body_pose.npy |-- scene01_face_expression.npy |-- scene01_missing_face_frames.npy |-- ... |-- scene30_audio.wav |-- scene30_body_pose.npy |-- scene30_face_expression.npy |-- scene30_missing_face_frames.npy |-- RLW104/ |-- TXB805/ |-- GQS883/

数据集注释

音频文件: audio.wav (双通道，48kHz)
身体姿势: body_pose.npy (T x 104)
面部表情: face_expression.npy (T x 256)
缺失面部帧: missing_face_frames.npy
数据统计: data_stats.pth

数据集下载

下载链接: https://github.com/facebookresearch/audio2photoreal/releases/download/v1.0/<person_id>.zip
下载命令:

curl -L https://github.com/facebookresearch/audio2photoreal/releases/download/v1.0/<person_id>.zip -o <person_id>.zip unzip <person_id>.zip -d dataset/ rm <person_id>.zip

预训练模型

模型结构:

|-- checkpoints/ |-- diffusion/ |-- c1_face/ |-- args.json |-- model:09d.pt |-- c1_pose/ |-- args.json |-- model:09d.pt |-- guide/ |-- c1_pose/ |-- args.json |-- checkpoints/ |-- iter-:07d.pt |-- vq/ |-- c1_pose/ |-- args.json |-- net_iter:06d.pth

使用数据集和代码的引用

引用格式:

@inproceedings{ng2024audio2photoreal, title={From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations}, author={Ng, Evonne and Romero, Javier and Bagautdinov, Timur and Bai, Shaojie and Darrell, Trevor and Kanazawa, Angjoo and Richard, Alexander}, booktitle={IEEE Conference on Computer Vision and Pattern Recognition}, year={2024} }

数据集可视化

命令:

python -m visualize.render_anno --save_dir <path/to/save/dir> --data_root <path/to/data/root> --max_seq_length <num>

预训练模型的运行

面部生成:

python -m sample.generate --model_path <path/to/model> --num_samples <xsamples> --num_repetitions <xreps> --timestep_respacing ddim500 --guidance_param 10.0
身体生成:

python -m sample.generate --model_path <path/to/model> --resume_trans <path/to/guide/model> --num_samples <xsamples> --num_repetitions <xreps> --timestep_respacing ddim500 --guidance_param 2.0

从头开始训练模型

面部扩散模型:

python -m train.train_diffusion --save_dir <path/to/save/dir> --data_root <path/to/data/root> --batch_size <bs> --dataset social --data_format face --layers 8 --heads 8 --timestep_respacing --max_seq_length 600
身体扩散模型:

python -m train.train_diffusion --save_dir <path/to/save/dir> --data_root <path/to/data/root> --lambda_vel <num> --batch_size <bs> --dataset social --add_frame_cond 1 --data_format pose --layers 6 --heads 8 --timestep_respacing --max_seq_length 600
身体VQ VAE:

python -m train.train_vq --out_dir <path/to/out/dir> --data_root <path/to/data/root> --lr 1e-3 --code_dim 1024 --output_emb_width 64 --depth 4 --dataname social --loss_vel 0.0 --data_format pose --batch_size 4 --add_frame_cond 1 --max_seq_length 600
身体引导变换器:

python -m train.train_guide --out_dir <path/to/out/dir> --data_root <path/to/data/root> --batch_size <bs> --resume_pth <path/to/vq/model> --add_frame_cond 1 --layers 6 --lr 2e-4 --gn --dim 64

许可证

许可证: CC-NC 4.0 International license

搜集汇总

数据集介绍

构建方式

该数据集通过捕捉四名参与者在对话中的音频、身体姿态和面部表情，构建了一个多模态的数据集。每个参与者有多个场景，每个场景包含音频文件（wav格式）、身体姿态（npy格式）和面部表情（npy格式）的标注。此外，还记录了面部表情缺失或损坏的帧索引。数据集的构建方式确保了每个场景的多模态数据一致性，为后续的模型训练提供了高质量的输入。

特点

该数据集的显著特点在于其多模态数据的整合，涵盖了音频、身体姿态和面部表情，为研究从音频到真实感人体合成的技术提供了丰富的数据支持。每个场景的数据标注精细，且包含了缺失帧的索引，有助于模型在训练过程中处理不完整数据。此外，数据集提供了预训练模型和训练代码，方便研究者快速上手并进行实验。

使用方法

使用该数据集时，用户可以通过提供的脚本下载数据和预训练模型，并使用提供的训练和测试代码进行模型训练和评估。数据集支持多种模型的训练，包括面部扩散模型、身体扩散模型、身体VQ VAE模型和身体引导变换器。用户可以通过运行预训练模型生成结果文件，并通过渲染API可视化生成的视频。此外，数据集还提供了可视化脚本，帮助用户查看和验证数据标注的准确性。

背景与挑战

背景概述

在计算机视觉与模式识别领域，音频到真实感人体合成的研究近年来取得了显著进展。audio2photoreal数据集由Facebook Research团队于2024年发布，旨在解决从音频到真实感人体对话场景的合成问题。该数据集的核心研究问题是通过音频信号生成逼真的人体动作与面部表情，从而实现自然对话场景的合成。主要研究人员包括Evonne Ng、Javier Romero等，他们的研究成果在IEEE Conference on Computer Vision and Pattern Recognition（CVPR）上发表，对推动音频与视觉合成技术的发展具有重要影响。

当前挑战

audio2photoreal数据集面临的挑战主要集中在两个方面。首先，从音频到真实感人体的合成过程中，如何准确捕捉和生成复杂的面部表情和身体动作是一个技术难点。其次，数据集的构建过程中，涉及大量的数据标注和模型训练，确保数据质量和模型性能的稳定性是另一大挑战。此外，如何在不同场景和音频条件下保持生成结果的一致性和真实感，也是该数据集需要解决的关键问题。

常用场景

经典使用场景

在计算机视觉与模式识别领域，audio2photoreal数据集的经典使用场景主要集中在从音频信号生成逼真的人体动作与面部表情。该数据集通过提供音频、身体姿态和面部表情的多模态数据，使得研究者能够训练模型，从而实现从音频到逼真人体动作的合成。这一过程不仅涉及音频信号的处理，还包括对姿态和面部表情的精确建模，最终生成与音频内容高度一致的逼真视频。

衍生相关工作

基于audio2photoreal数据集，研究者们已经开展了一系列相关工作，包括但不限于多模态数据融合、音频到动作的生成模型优化、以及逼真人体动作与面部表情的渲染技术。这些工作不仅推动了计算机视觉与模式识别领域的发展，还为虚拟现实、增强现实等应用提供了新的技术手段。未来，随着数据集的进一步完善和技术的不断进步，预计将有更多创新性的研究成果涌现。

数据集最近研究