HOIVG-Bench

Name: HOIVG-Bench
Creator: 香港中文大学; 字节跳动; 莫纳什大学; 香港大学
Published: 2026-04-14 01:59:12
License: 暂无描述

arXiv2026-04-14 更新2026-04-15 收录

下载链接：

https://correr-zhou.github.io/OmniShow

下载链接

链接失效反馈

官方服务：

资源简介：

HOIVG-Bench是由香港中文大学、字节跳动等机构联合构建的综合性评估基准，专注于人-物交互视频生成（HOIVG）任务的多模态条件验证。该数据集通过整合文本提示、参考图像、音频和姿态序列等异构数据，填补了该领域标准化评估工具的空白。其设计采用严格的五元组数据配对（条件输入与目标视频），支持对生成视频的视觉质量、跨模态对齐精度等核心指标进行系统化测评。作为OmniShow框架的配套基准，它为解决电商展示、短视频制作等实际应用中的可控视频生成难题提供了量化研究基础。

HOIVG-Bench is a comprehensive evaluation benchmark jointly constructed by institutions including The Chinese University of Hong Kong and ByteDance, focusing on multimodal conditional validation for human-object interaction video generation (HOIVG) tasks. This dataset integrates heterogeneous data such as text prompts, reference images, audio and pose sequences, filling the gap of standardized evaluation tools in this field. Its design adopts a strict quintuple data pairing scheme (conditional input and target video), enabling systematic evaluation of core metrics including the visual quality of generated videos and cross-modal alignment accuracy. As a supporting benchmark for the OmniShow framework, it provides a quantitative research foundation for addressing the challenges of controllable video generation in practical applications such as e-commerce display and short-video production.

提供机构：

香港中文大学; 字节跳动; 莫纳什大学; 香港大学

创建时间：

2026-04-14

原始信息汇总

OmniShow 数据集概述

基本描述

数据集名称: OmniShow
核心任务: 人-物交互视频生成
技术特点: 一个端到端的框架，用于统一文本、参考图像、音频和姿态条件以合成高质量的人-物交互视频。

主要功能与模式

参考图像到视频生成: 通过注入参考图像，实现高保真外观和自然交互。
参考图像+音频到视频生成: 在音频输入下，保持参考身份并与音频更可靠地对齐运动。
参考图像+姿态到视频生成: 给定参考图像和姿态，更好地遵循运动轨迹，同时保持物体交互的真实性。
参考图像+音频+姿态到视频生成: 独特地支持联合文本+参考+音频+姿态输入，实现精确条件对齐的稳定生成。

技术优势

逼真的运动质量: 具有丰富且连贯动态的平滑运动。
稳健的物理合理性: 更稳定的接触、抓握和更少的穿透。
原生长镜头生成: 生成更长的连续镜头，最长可达10秒。
富有表现力的虚拟形象动画: 从人物图像和音频输入生成生动的说话和唱歌。
稳定的身份保持: 在不同场景中保持高度一致的角色外观。

对比基准

在参考图像到视频生成任务中，与 HunyuanCustom、HuMo-17B、VACE 和 Phantom-14B 进行了比较。
在参考图像+音频到视频生成任务中，与 HunyuanCustom 和 HuMo-17B 进行了比较。
在参考图像+姿态到视频生成任务中，与 AnchorCrafter 和 VACE 进行了比较。

相关资源

论文链接: https://correr-zhou.github.io/OmniShow
GitHub链接: https://correr-zhou.github.io/OmniShow
评估基准: HOIVG-Bench
更多相关工作: HiFi-Inpaint, IdentityStory, SceneDecorator, MagicTailor

搜集汇总

数据集介绍

构建方式

在人类-物体交互视频生成领域，高质量多模态数据的稀缺性构成了核心挑战。HOIVG-Bench的构建遵循一套严谨的流程，旨在填补该领域综合性评估基准的空白。其样本构造始于从内部视频库中精心筛选原始视频，标准包括视频时长、清晰的交互场景以及人类与物体属性的多样性。为模拟真实生成场景，物体参考图像并非简单裁剪，而是通过纹理与色彩编辑技术生成，以保留精细细节；人类参考图像则基于视频截图生成，在保持风格相似性的同时进行身份去标识化处理。姿态序列通过姿态估计算法从原始视频中提取，而语义一致的音频则通过两阶段生成：首先生成描述性脚本，再根据人类图像属性合成匹配音色的高质量语音。这一系列精心设计的步骤最终汇集了135个高质量样本，每个样本均配备了文本描述、人类与物体参考图像、音频及连贯的姿态序列。

使用方法

HOIVG-Bench为评估人类-物体交互视频生成模型的性能提供了标准化的测试平台。研究人员或开发者可将待评估模型在基准提供的135个样本上进行推理，生成对应的视频。随后，需按照基准定义的指标集对生成结果进行量化评估：使用VideoReward计算文本对齐度与视频质量；采用OpenS2V的方法评估人脸相似度与整体参考一致性；基于姿态估计结果计算平均关键点距离与正确关键点百分比；利用Sync-C与Sync-D分数衡量音视频同步性；并借助VBench评估美学与图像质量。为确保公平比较，所有评估需在统一的5秒时长、720p分辨率、竖屏模式下进行。该基准不仅支持对模型在单一条件设置（如R2V、RA2V、RP2V）下的能力进行横向对比，其独有的RAP2V全条件设置更能检验模型统一协调所有输入模态的综合性能，从而推动该领域研究向更精细、更实用的方向发展。

背景与挑战

背景概述

HOIVG-Bench是2026年由香港中文大学、字节跳动等机构研究人员为评估人-物交互视频生成任务而构建的专用基准。该数据集旨在系统化评估模型在文本、参考图像、音频和姿态序列等多模态条件协同控制下的生成能力，以应对电子商务演示、短视频制作等实际应用中对内容可控性的迫切需求。其构建标志着人-物交互视频生成领域从方法探索迈向标准化评估的关键一步，为后续研究提供了统一的性能衡量尺度。

当前挑战

HOIVG-Bench所针对的人-物交互视频生成任务面临多重挑战：在领域层面，需同时保证生成视频的视觉质量、参考身份一致性、姿态准确性及音画同步性，多目标间的权衡极为困难；在构建层面，高质量的五元组数据稀缺，需从异构子任务数据中筛选整合，且评估需设计涵盖文本对齐、参考一致性、姿态精度、音画同步与视频质量的综合指标体系，以全面反映模型在多模态协同控制下的真实性能。

常用场景

经典使用场景

在视频生成领域，HOIVG-Bench作为首个专门针对人-物交互视频生成任务的综合性基准测试集，其最经典的使用场景在于为多模态条件驱动的视频生成模型提供系统化评估框架。该基准集成了文本、参考图像、音频和姿态序列四种模态的输入条件，构建了包含135个高质量样本的评估套件，覆盖了从简单参考图像到视频生成到复杂多模态联合控制等多种任务设置。研究人员通过在该基准上进行定量指标评估和定性结果分析，能够全面衡量模型在文本语义对齐、参考身份一致性、音频-视觉同步精度、姿态控制准确性以及视频整体质量等多个维度的性能表现，从而推动该领域研究向更可控、更高保真度的方向发展。

解决学术问题

HOIVG-Bench的建立有效解决了人-物交互视频生成领域长期存在的评估标准缺失问题。此前的研究缺乏一个能够系统评估文本、图像、音频和姿态四种条件协同作用的统一基准，导致不同方法之间的性能对比困难，阻碍了研究的可持续进展。该基准通过精心设计的样本构建流程和涵盖五个关键维度的评估指标，为学术界提供了衡量多模态条件统一控制能力的标准化工具。它不仅促进了生成视频在视觉保真度与多模态可控性之间权衡的量化研究，还为探索如何高效利用异构训练数据、设计更优的模态注入机制等核心学术问题提供了可靠的实验平台，对推动视频生成从单一条件驱动迈向精细化多模态协同控制具有里程碑意义。

实际应用

HOIVG-Bench所支撑的技术能力在现实世界中展现出广泛的应用前景。在电子商务领域，该基准评估的模型能够根据产品图片和描述文案，自动生成包含真人演示、语音讲解和特定动作的营销视频，极大提升了内容制作效率。在短视频创作和互动娱乐行业，创作者可以基于参考人物形象、配音和预设动作序列，快速合成高质量的角色互动内容，实现个性化虚拟形象的生动演绎。此外，在教育和培训场景中，该技术能够生成结合具体教具的操作演示视频，使知识传递更加直观。这些应用均依赖于HOIVG-Bench所评估的多模态精确对齐与高质量生成能力，为自动化内容创作提供了切实可行的技术路径。

数据集最近研究