InteractiveEyes

Name: InteractiveEyes
Creator: 香港科技大学、Video Rebirth、浙江大学、北京交通大学
Published: 2025-11-29 02:59:01
License: 暂无描述

arXiv2025-11-29 更新2025-12-02 收录

下载链接：

https://github.com/HKUST-C4G/AnyTalker

下载链接

链接失效反馈

官方服务：

资源简介：

InteractiveEyes是由研究团队精心构建的基准数据集，旨在评估多人对话视频的交互自然性。该数据集包含双人互动视频，精细标注了说话与倾听的时间区间以及眼神接触信息，为量化交互行为提供了结构化数据支持。数据通过严格的质控流程采集，包括人脸检测、音频分离和运动过滤，确保了内容的高质量与一致性。该数据集主要应用于多人音频驱动视频生成领域，用于训练和评估模型在模拟真实人际互动（如轮流发言、非语言交流）方面的性能，解决现有单人或缺乏交互标注数据不足的局限性。

InteractiveEyes is a benchmark dataset meticulously constructed by a research team, aiming to evaluate the interaction naturalness of multi-party conversational videos. This dataset includes two-person interactive videos, with fine-grained annotations of speaking and listening time intervals as well as eye contact information, providing structured data support for quantifying interactive behaviors. The data is collected via a rigorous quality control pipeline, including face detection, audio separation and motion filtering, to guarantee the high quality and consistency of the content. It is primarily applied in the field of multi-party audio-driven video generation, for training and evaluating models' performance in simulating real interpersonal interactions such as turn-taking and non-verbal communication, thereby addressing the limitations of existing datasets that either only cover single-person content or lack sufficient interactive annotations.

提供机构：

香港科技大学、Video Rebirth、浙江大学、北京交通大学

创建时间：

2025-11-29

原始信息汇总

AnyTalker 数据集概述

数据集基本信息

数据集名称: AnyTalker
核心功能: 音频驱动的多人说话视频生成框架
核心特点: 采用灵活的多流结构，可扩展身份数量，同时确保身份间无缝交互
技术报告: https://arxiv.org/abs/2511.23475
项目主页: https://hkust-c4g.github.io/AnyTalker-homepage/

模型版本与获取

可用模型

基础模型
- 名称: Wan2.1-Fun-V1.1-1.3B-InP
- 下载地址: https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-1.3B-InP
音频编码器
- 名称: wav2vec2-base
- 下载地址: https://huggingface.co/facebook/wav2vec2-base-960h
AnyTalker权重
- 版本: AnyTalker-1.3B
- 下载地址: https://huggingface.co/zzz66/AnyTalker-1.3B
- 备注: 该权重仅在单人数据上训练

模型目录结构

checkpoints/ ├── Wan2.1-Fun-V1.1-1.3B-InP ├── wav2vec2-base-960h └── AnyTalker

快速开始

环境安装

创建Conda环境
- Python版本: 3.10
- PyTorch版本: 2.6.0
依赖安装
- 安装requirements.txt中的依赖包
- 安装flash-attn 2.8.1
- 安装支持libx264的FFmpeg

快速推理

脚本: generate_a2v_batch_multiID.py
输入配置: input_example/customize_your_input_here.json
输出目录: outputs
支持模式: 根据输入音频列表长度自动切换单人/多人生成模式

关键超参数说明

--offload_model: 是否在每次前向后将模型卸载到CPU，减少GPU内存使用
--det_thresh: InsightFace模型的检测阈值，较低值可提升抽象风格图像性能
--sample_guide_scale: 推荐值4.5，同时应用于文本和音频
--mode: "pad"模式（各音频轨道已零填充至相同长度）或"concat"模式（脚本将各说话人片段连接后零填充非说话人段）
--use_half: 是否启用半精度推理以加速

基准测试

数据集下载

工具: yt-dlp
脚本: benchmark/download.py
目录结构:

benchmark/ ├── audio_left # 左侧说话人音频（零填充至全长） ├── audio_right # 右侧说话人音频（零填充至全长） ├── speaker_duration.json # 各说话人开始/结束时间戳 ├── interact_11.mp4 # 示例视频 └── frames # 参考图像（提供为视频第一帧）

交互性评估

评估脚本: calculate_interactivity.py
评估对象: 单个视频或整个目录
输出: 论文中定义的交互性分数
注意: 生成的视频必须保持与speaker_duration.json中列出的完全相同的名称

开发状态

已完成

推理代码
1.3B阶段1检查点（仅在单人数据上训练）
交互性评估基准
技术报告

计划中

14B模型（即将在Video Rebirth创作平台发布）

许可信息

许可证: Apache 2.0 License
生成内容: 用户对生成内容拥有完全使用权
使用责任: 用户需对模型使用全权负责，不得分享违反适用法律、伤害个人或群体、传播用于伤害的个人信息、传播错误信息或针对弱势群体的内容

引用

如需在研究中引用本工作，请使用以下引用格式：

@article{zhong2025anytalker, title={AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement}, author={Zhong, Zhizhou and Ji, Yicheng and Kong, Zhe and Liu, YiYing and Wang, Jiarui and Feng, Jiasun and Liu, Lupeng and Wang, Xiangyi and Li, Yanjia and She, Yuqing and Qin, Ying and Li, Huan and Mao, Shuiyang and Liu, Wei and Luo, Wenhan}, journal={arXiv preprint}, year={2025} }

搜集汇总

数据集介绍

构建方式

在多人交互视频生成领域，高质量数据的稀缺性长期制约着模型对自然互动行为的学习。InteractiveEyes数据集的构建旨在填补这一空白，其核心策略是从互联网精心筛选包含双人对话场景的视频片段，每段视频时长约10秒，并确保画面中始终同时呈现两张人脸。通过人工精细标注，对音频进行分段处理，以准确标记每位参与者的说话与倾听时段，并特别关注眼神交流、头部转动等非语言互动细节，从而构建出一个专注于评估生成视频中交互自然性的基准数据集。

特点

InteractiveEyes数据集的核心特点在于其针对性的设计理念与精细的标注体系。与主流单人说话头部数据集不同，它专门捕捉双人对话中的动态交互过程，尤其强调倾听状态下的非语言反馈行为，如眼神接触与头部朝向变化。数据集提供了细粒度的时序标签，清晰划分了每位参与者的说话与倾听区间，这为量化评估生成角色在对话中的响应性与自然度提供了坚实基础。其构建目标明确指向解决现有评估基准在多人交互分析上的不足，具有高度的专业性与应用针对性。

使用方法

该数据集主要服务于对音频驱动的多人说话视频生成模型的交互自然性进行评估。研究人员可将生成模型输出的视频在InteractiveEyes基准上进行测试，利用其提供的精细时段标签，计算倾听时段内眼部关键点的运动强度，从而量化模型的“交互性”得分。这一评估流程能够有效区分模型是否仅能驱动说话者的唇部同步，还是能同时赋予倾听者以符合人类对话习惯的生动反应。因此，该数据集是推动生成模型在多人场景下实现更自然、更富表现力互动的重要工具。

背景与挑战

背景概述

InteractiveEyes数据集诞生于2025年，由香港科技大学、Video Rebirth等机构的研究团队在开发AnyTalker多人生成框架的过程中创建。该数据集旨在应对数字媒体时代对高质量多人物交互视频生成的迫切需求，其核心研究问题是解决现有音频驱动视频生成模型在模拟真实人际互动，特别是眼神交流与非语言线索方面的不足。通过提供精细标注的双人对话视频片段，该数据集为评估生成视频的自然交互性设立了新标准，对推动具身智能与社交计算领域的发展具有显著影响力。

当前挑战

InteractiveEyes数据集旨在解决的领域挑战，是多人物对话视频生成中难以建模和评估的自然交互性问题，特别是超越唇部同步的眼神接触、头部姿态等非语言行为的生成与量化。在构建过程中，研究团队面临的主要挑战包括：从海量网络视频中筛选出同时包含清晰双人画面、高质量音频且互动丰富的片段；设计并实施精细的人工标注流程，以准确划分每位参与者的说话与倾听区间；以及开发一种能够量化眼神活动、有效区分自然互动与静态僵化表现的新型评估指标。

常用场景

经典使用场景

在音频驱动的多人物对话视频生成领域，InteractiveEyes数据集作为评估交互自然性的基准工具，其经典应用场景集中于量化分析生成视频中人物间的非语言互动行为。该数据集通过精心标注的双人对话视频片段，提供了细粒度的说话与倾听区间标签，使得研究者能够精确测量倾听状态下眼部关键点的活动强度，从而评估模型在模拟真实人际互动方面的表现。

衍生相关工作

该数据集的提出催生了一系列关注多人物交互生成的研究工作。例如，AnyTalker框架利用该数据集验证其身份感知注意力机制的有效性；后续研究如MultiTalk与Bind-Your-Avatar等方法也相继采用类似评估范式。这些工作共同推动了交互性量化指标的发展，并促进了基于单人物数据学习多人互动模式的新型训练范式的形成，为生成式人工智能在社交场景中的应用奠定了理论基础。

数据集最近研究