Proteus-Bench

Name: Proteus-Bench
Creator: 香港中文大学深圳分校, 南京大学, 滴滴出行
Published: 2025-06-30 19:05:32
License: 暂无描述

arXiv2025-06-30 更新2025-07-02 收录

下载链接：

https://grenoble-zhang.github.io/Proteus-ID/

下载链接

链接失效反馈

官方服务：

资源简介：

Proteus-Bench是一个高质量的定制视频数据集，包含20万个精心挑选的视频片段，用于模型训练。此外，还有来自不同职业和族裔的150个人的视频，用于模型评估。这个数据集支持了Proteus-ID框架的研究，该框架旨在解决视频身份定制任务中的两个核心挑战：在符合描述的外观和动作的同时保持身份一致性，以及生成自然流畅的运动。

Proteus-Bench is a high-quality custom video dataset that contains 200,000 meticulously selected video clips for model training. Additionally, it features videos of 150 individuals from various occupations and ethnic groups for model evaluation. This dataset supports research on the Proteus-ID framework, which aims to address two core challenges in video identity customization tasks: maintaining identity consistency while generating appearances and actions that align with the given descriptions, and producing natural and smooth movements.

提供机构：

香港中文大学深圳分校, 南京大学, 滴滴出行

创建时间：

2025-06-30

原始信息汇总

Proteus-ID: ID-Consistent and Motion-Coherent Video Customization

数据集概述

任务目标：视频身份定制，通过单张参考图像和文本提示合成特定主体的逼真、时间连贯的视频。
核心挑战：
- 保持身份一致性与外观动作描述的协调。
- 生成自然流畅的运动效果。

关键技术

多模态身份融合模块 (MIF)：
- 使用Q-Former统一视觉和文本线索为联合身份表示。
- 消除模态不平衡问题。
时间感知身份注入机制 (TAII)：
- 动态调节去噪步骤中的身份条件。
- 提升细节重建效果。
自适应运动学习策略 (AML)：
- 基于光流运动热图重新加权训练损失。
- 无需额外输入即可增强运动真实性。

数据集构成

Proteus-Bench：
- 训练集：20万条精选视频片段。
- 评估集：150名来自不同职业和种族的个体。

性能表现

在身份保持、文本对齐和运动质量方面优于现有方法。
建立视频身份定制新基准。

引用格式

bibtex @article{Proteus-ID, title={Proteus-ID: ID-Consistent and Motion-Coherent Video Customization}, author={Guiyu Zhang, Chen Shi, Zijian Jiang, Xunzhi Xiang, Jingjing Qian, Shaoshuai Shi, Li Jiang}, year={2025} }

搜集汇总

数据集介绍

构建方式

Proteus-Bench数据集的构建过程体现了严谨的科学方法论与前沿的计算机视觉技术融合。研究团队采用多阶段筛选策略，首先通过语义关键词（如'human''woman''man'）从互联网采集原始视频素材，继而运用PaddleOCR文本检测、美学评分和运动分析三重过滤机制剔除低质量内容。为确保身份特征与场景上下文的平衡性，采用YOLO-Box进行面部/头部/身体区域检测，结合YOLO-Pose面部关键点覆盖分析，最终保留面部区域占比超过6%帧面积的视频片段。通过SAM2模型生成精细化人体掩膜，并采用Qwen2.5-VL-72B模型实现时序对齐的视频描述生成，构建出包含20万条高质量视频片段的训练集与150名多元职业/种族个体的测试集。

使用方法

研究者可通过两种路径利用该数据集：基础应用层面，直接加载预处理后的视频-文本对进行端到端模型训练，利用内置的面部相似度（FaceSim-Arc/Cur）、文本对齐度（CLIPScore）等评估指标验证性能；高级研究场景下，可调用原始光学流数据与细分人体掩膜，开发新型运动建模算法。数据采用分层存储结构，主体视频、语义分割图、光流场分别存储并可通过唯一身份ID关联，支持PyTorch的DataLoader直接读取。特别提供的时序描述标注支持跨帧语义一致性研究，为视频身份定制领域建立新的基准体系。

背景与挑战

背景概述

Proteus-Bench数据集由香港中文大学（深圳）、南京大学和滴滴出行Voyager Research的研究团队于2025年提出，旨在推动视频身份定制领域的研究。该数据集包含20万条精选视频片段和150名来自不同职业和种族的评估个体，为生成具有身份一致性和运动连贯性的个性化视频提供了高质量的训练与评估资源。其核心研究问题聚焦于如何在单张参考图像和文本描述的条件下，生成既保持身份特征又符合语义描述的自然流畅视频。Proteus-Bench的建立填补了现有数据在规模与多样性上的不足，为视频生成模型的性能提升奠定了重要基础。

当前挑战

Proteus-Bench面临的挑战主要体现在两个方面：领域问题方面，视频身份定制需同时解决身份一致性保持与文本语义对齐的冲突，以及生成视频运动自然性的难题，现有方法常出现‘复制粘贴’ artifacts或运动僵硬等问题；数据构建方面，需克服高质量视频数据稀缺、身份多样性不足以及复杂场景下运动标注困难等挑战，通过多阶段过滤和自动化处理确保数据质量。

常用场景

经典使用场景

Proteus-Bench数据集在视频身份定制领域具有广泛的应用场景，特别是在生成具有身份一致性和运动连贯性的个性化视频方面。该数据集通过提供高质量的参考图像和文本描述，支持生成逼真的视频内容，广泛应用于影视制作、虚拟现实和数字广告等领域。其多模态特征融合机制确保了生成视频在身份保持和文本对齐方面的卓越表现。

解决学术问题

Proteus-Bench数据集解决了视频生成中的两大核心学术问题：身份一致性和运动连贯性。通过引入多模态身份融合模块和时间感知身份注入机制，该数据集有效缓解了视觉和文本模态之间的冲突，显著提升了生成视频的质量。此外，自适应运动学习策略进一步优化了动态区域的生成，为复杂动作的建模提供了新的解决方案。

实际应用

在实际应用中，Proteus-Bench数据集被广泛用于个性化视频内容的生成，如虚拟偶像的动画制作、影视特效中的角色替换以及广告中的个性化推荐视频。其高质量的数据和先进的生成框架使得生成内容在视觉保真度和语义一致性上均达到行业领先水平，极大地推动了视频生成技术的商业化应用。

数据集最近研究