audio2photoreal
收藏数据集概述
数据集名称
- 名称: From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
数据集内容
- 训练代码
- 测试代码
- 预训练的运动模型
- 数据集访问权限
数据集结构
-
目录结构:
|-- dataset/ |-- PXB184/ |-- data_stats.pth |-- scene01_audio.wav |-- scene01_body_pose.npy |-- scene01_face_expression.npy |-- scene01_missing_face_frames.npy |-- ... |-- scene30_audio.wav |-- scene30_body_pose.npy |-- scene30_face_expression.npy |-- scene30_missing_face_frames.npy |-- RLW104/ |-- TXB805/ |-- GQS883/
数据集注释
- 音频文件:
audio.wav(双通道,48kHz) - 身体姿势:
body_pose.npy(T x 104) - 面部表情:
face_expression.npy(T x 256) - 缺失面部帧:
missing_face_frames.npy - 数据统计:
data_stats.pth
数据集下载
-
下载链接:
https://github.com/facebookresearch/audio2photoreal/releases/download/v1.0/<person_id>.zip -
下载命令:
curl -L https://github.com/facebookresearch/audio2photoreal/releases/download/v1.0/<person_id>.zip -o <person_id>.zip unzip <person_id>.zip -d dataset/ rm <person_id>.zip
预训练模型
-
模型结构:
|-- checkpoints/ |-- diffusion/ |-- c1_face/ |-- args.json |-- model:09d.pt |-- c1_pose/ |-- args.json |-- model:09d.pt |-- guide/ |-- c1_pose/ |-- args.json |-- checkpoints/ |-- iter-:07d.pt |-- vq/ |-- c1_pose/ |-- args.json |-- net_iter:06d.pth
使用数据集和代码的引用
-
引用格式:
@inproceedings{ng2024audio2photoreal, title={From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations}, author={Ng, Evonne and Romero, Javier and Bagautdinov, Timur and Bai, Shaojie and Darrell, Trevor and Kanazawa, Angjoo and Richard, Alexander}, booktitle={IEEE Conference on Computer Vision and Pattern Recognition}, year={2024} }
数据集可视化
-
命令:
python -m visualize.render_anno --save_dir <path/to/save/dir> --data_root <path/to/data/root> --max_seq_length <num>
预训练模型的运行
-
面部生成:
python -m sample.generate --model_path <path/to/model> --num_samples <xsamples> --num_repetitions <xreps> --timestep_respacing ddim500 --guidance_param 10.0
-
身体生成:
python -m sample.generate --model_path <path/to/model> --resume_trans <path/to/guide/model> --num_samples <xsamples> --num_repetitions <xreps> --timestep_respacing ddim500 --guidance_param 2.0
从头开始训练模型
-
面部扩散模型:
python -m train.train_diffusion --save_dir <path/to/save/dir> --data_root <path/to/data/root> --batch_size <bs> --dataset social --data_format face --layers 8 --heads 8 --timestep_respacing --max_seq_length 600
-
身体扩散模型:
python -m train.train_diffusion --save_dir <path/to/save/dir> --data_root <path/to/data/root> --lambda_vel <num> --batch_size <bs> --dataset social --add_frame_cond 1 --data_format pose --layers 6 --heads 8 --timestep_respacing --max_seq_length 600
-
身体VQ VAE:
python -m train.train_vq --out_dir <path/to/out/dir> --data_root <path/to/data/root> --lr 1e-3 --code_dim 1024 --output_emb_width 64 --depth 4 --dataname social --loss_vel 0.0 --data_format pose --batch_size 4 --add_frame_cond 1 --max_seq_length 600
-
身体引导变换器:
python -m train.train_guide --out_dir <path/to/out/dir> --data_root <path/to/data/root> --batch_size <bs> --resume_pth <path/to/vq/model> --add_frame_cond 1 --layers 6 --lr 2e-4 --gn --dim 64
许可证
- 许可证: CC-NC 4.0 International license




