InteractiveEyes
收藏AnyTalker 数据集概述
数据集基本信息
- 数据集名称: AnyTalker
- 核心功能: 音频驱动的多人说话视频生成框架
- 核心特点: 采用灵活的多流结构,可扩展身份数量,同时确保身份间无缝交互
- 技术报告: https://arxiv.org/abs/2511.23475
- 项目主页: https://hkust-c4g.github.io/AnyTalker-homepage/
模型版本与获取
可用模型
-
基础模型
- 名称: Wan2.1-Fun-V1.1-1.3B-InP
- 下载地址: https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-1.3B-InP
-
音频编码器
- 名称: wav2vec2-base
- 下载地址: https://huggingface.co/facebook/wav2vec2-base-960h
-
AnyTalker权重
- 版本: AnyTalker-1.3B
- 下载地址: https://huggingface.co/zzz66/AnyTalker-1.3B
- 备注: 该权重仅在单人数据上训练
模型目录结构
checkpoints/ ├── Wan2.1-Fun-V1.1-1.3B-InP ├── wav2vec2-base-960h └── AnyTalker
快速开始
环境安装
-
创建Conda环境
- Python版本: 3.10
- PyTorch版本: 2.6.0
-
依赖安装
- 安装requirements.txt中的依赖包
- 安装flash-attn 2.8.1
- 安装支持libx264的FFmpeg
快速推理
- 脚本: generate_a2v_batch_multiID.py
- 输入配置: input_example/customize_your_input_here.json
- 输出目录: outputs
- 支持模式: 根据输入音频列表长度自动切换单人/多人生成模式
关键超参数说明
--offload_model: 是否在每次前向后将模型卸载到CPU,减少GPU内存使用--det_thresh: InsightFace模型的检测阈值,较低值可提升抽象风格图像性能--sample_guide_scale: 推荐值4.5,同时应用于文本和音频--mode: "pad"模式(各音频轨道已零填充至相同长度)或"concat"模式(脚本将各说话人片段连接后零填充非说话人段)--use_half: 是否启用半精度推理以加速
基准测试
数据集下载
- 工具: yt-dlp
- 脚本: benchmark/download.py
- 目录结构:
benchmark/ ├── audio_left # 左侧说话人音频(零填充至全长) ├── audio_right # 右侧说话人音频(零填充至全长) ├── speaker_duration.json # 各说话人开始/结束时间戳 ├── interact_11.mp4 # 示例视频 └── frames # 参考图像(提供为视频第一帧)
交互性评估
- 评估脚本: calculate_interactivity.py
- 评估对象: 单个视频或整个目录
- 输出: 论文中定义的交互性分数
- 注意: 生成的视频必须保持与speaker_duration.json中列出的完全相同的名称
开发状态
已完成
- 推理代码
- 1.3B阶段1检查点(仅在单人数据上训练)
- 交互性评估基准
- 技术报告
计划中
- 14B模型(即将在Video Rebirth创作平台发布)
许可信息
- 许可证: Apache 2.0 License
- 生成内容: 用户对生成内容拥有完全使用权
- 使用责任: 用户需对模型使用全权负责,不得分享违反适用法律、伤害个人或群体、传播用于伤害的个人信息、传播错误信息或针对弱势群体的内容
引用
如需在研究中引用本工作,请使用以下引用格式:
@article{zhong2025anytalker, title={AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement}, author={Zhong, Zhizhou and Ji, Yicheng and Kong, Zhe and Liu, YiYing and Wang, Jiarui and Feng, Jiasun and Liu, Lupeng and Wang, Xiangyi and Li, Yanjia and She, Yuqing and Qin, Ying and Li, Huan and Mao, Shuiyang and Liu, Wei and Luo, Wenhan}, journal={arXiv preprint}, year={2025} }

- 1通过香港科技大学、Video Rebirth、浙江大学、北京交通大学 · 2025年



