ConsIDVid

Name: ConsIDVid
Creator: 德州农工大学; eBay公司
Published: 2026-02-11 02:59:51
License: 暂无描述

arXiv2026-02-11 更新2026-02-12 收录

下载链接：

https://myangwu.github.io/ConsID-Gen

下载链接

链接失效反馈

官方服务：

资源简介：

ConsIDVid是由德州农工大学与eBay公司联合构建的大规模物体中心化视频数据集，旨在解决图像到视频生成中的身份保持问题。该数据集整合了真实世界单目视频、合成数据及现有3D数据集（如Co3D、OmniObject3D），包含高质量时空对齐的刚性物体视频，并通过分层标注流程生成细粒度文本描述。数据集通过自动化流水线进行亮度、模糊度和语义连贯性筛选，特别强调多视角几何一致性和外观稳定性。主要应用于电子商务、产品广告等需要精确保持物体身份特征的视频生成场景。

ConsIDVid is a large-scale object-centric video dataset jointly constructed by Texas A&M University and eBay Inc., which aims to address the identity preservation issue in image-to-video generation. This dataset integrates real-world monocular videos, synthetic data, and existing 3D datasets such as Co3D and OmniObject3D, containing high-quality spatially-temporally aligned rigid object videos, with fine-grained textual descriptions generated via a hierarchical annotation pipeline. The dataset conducts quality screening on brightness, blurriness and semantic coherence through an automated workflow, with particular emphasis on multi-view geometric consistency and appearance stability. It is mainly applied to video generation scenarios that require precise retention of object identity features, such as e-commerce and product advertising.

提供机构：

德州农工大学; eBay公司

创建时间：

2026-02-11

原始信息汇总

ConsID-Gen数据集概述

数据集名称

ConsIDVid

数据集简介

ConsIDVid是一个大规模、以物体为中心的数据集，用于身份保持的视频生成研究。
该数据集通过一个可扩展的流水线构建，旨在提供高质量、时间对齐的视频。

数据集关联的基准与评估套件

ConsIDVid-Bench：一个新颖的基准测试框架，专门用于评估多视角一致性。
该基准使用对细微几何和外观偏差敏感的指标进行评估。

数据集用途

作为ConsID-Gen（一个视角辅助的图像到视频生成框架）的组成部分。
用于全面评估图像到视频生成中的身份保持能力。

数据集状态

数据集：即将发布（Coming Soon）

相关资源

论文标题：ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation
论文地址：https://arxiv.org/abs/2602.10113
代码：即将发布（Coming Soon）

搜集汇总

数据集介绍

构建方式

在图像到视频生成领域，为应对现有数据在物体中心化、多视角一致性方面的不足，ConsIDVid数据集通过一个可扩展的流水线精心构建。该流水线整合了来自多个来源的视频素材，包括现有的物体中心数据集（如Co3D、OmniObject3D、Objectron）、专有的单目用户生成内容以及合成视频。构建过程包含严格的预处理与质量过滤步骤，例如对视频时长、分辨率、亮度、模糊度进行筛选，并应用语义感知的分割与美学评分，以确保数据的视觉与时间对齐质量。此外，通过分层的视频描述生成策略，为每个视频片段生成了细粒度、时间基础化的文本描述，为模型训练提供了高质量的跨模态对齐数据。

特点

ConsIDVid数据集的核心特点在于其大规模、物体中心化以及对身份一致性的专注。该数据集包含了数万个视频片段，覆盖了珠宝、家居、电子产品等多个物体类别，并确保了视频在时间上的连贯性。其独特之处在于引入了多视角一致性作为评估基准，通过专门的ConsIDVid-Bench提供了对几何形变和外观漂移敏感的评估指标，如Chamfer Distance和MEt3R。数据集不仅提供了丰富的真实世界物体视频，还通过合成数据增强了视角与物体的多样性，为训练和评估身份保持的图像到视频生成模型奠定了坚实的数据基础。

使用方法

ConsIDVid数据集主要用于训练和评估身份保持的图像到视频生成模型。研究人员可以利用该数据集训练模型，使其能够根据静态参考图像和文本指令，生成在动态视角变化下保持物体几何与外观一致性的视频序列。数据集配套的ConsIDVid-Bench为模型性能提供了标准化评估框架，通过一系列专注于多视角一致性的指标，如物体相似性、视频相似性以及几何感知度量，对生成视频的身份保真度进行定量分析。该数据集支持对现有生成模型进行基准测试，并推动在电子商务、产品广告等实际场景中开发更可靠的视频生成技术。

背景与挑战

背景概述

在计算机视觉与生成式人工智能领域，图像到视频生成任务旨在将静态图像转化为遵循文本指令的时序连贯视频序列，这一能力对于电子商务、广告创意和数字内容制作具有重要应用价值。然而，现有方法在动态视角变化下难以保持细粒度对象身份的稳定性，常出现外观漂移与几何失真问题。为系统性地应对这一挑战，由德克萨斯农工大学与eBay公司的研究人员于2026年共同构建了ConsIDVid数据集。该数据集作为大规模、以物体为中心的视频资源，通过可扩展的流水线整合了真实世界视频与合成序列，并配套建立了ConsIDVid-Bench评估基准，将视频生成的质量评估重新定义为多视角一致性问题，为核心研究提供了数据基础与评测标准。

当前挑战

ConsIDVid数据集致力于解决图像到视频生成中对象身份保持的核心挑战，即在摄像机运动或物体运动过程中维持几何结构与外观属性的跨帧一致性。具体挑战体现在两方面：在领域问题层面，现有生成模型常因单视角二维观测的稀疏性与跨模态对齐的弱约束，导致合成视频中出现物体形状扭曲、材质渐变或部件消失等身份漂移现象；在构建过程层面，数据集的创建需克服高质量、时序对齐的多视角视频稀缺性，并通过自动化流水线实现视频质量过滤、语义感知分割与分层描述生成，同时设计几何感知与外观敏感的评估指标以精确量化生成视频的细微偏差。

常用场景

经典使用场景

在计算机视觉领域，图像到视频生成任务旨在将静态图像转化为动态连贯的视频序列，同时遵循文本指令的引导。ConsIDVid数据集作为大规模物体中心视频资源，其经典使用场景集中于评估和训练身份保持的图像到视频生成模型。该数据集通过精心筛选的刚性物体视频，如珠宝、家居用品等，提供了多视角、时间对齐的高质量样本，使研究者能够深入探究在相机运动或物体变换过程中，如何维持物体几何结构与外观特征的稳定性。这些场景常涉及电子商务产品展示、虚拟内容创作等需要高度视觉一致性的应用。

解决学术问题

ConsIDVid数据集主要解决了图像到视频生成中身份保持的学术难题。传统方法在动态视角变化下常出现外观漂移和几何失真，导致物体身份信息丢失。该数据集通过构建大规模物体中心视频集合，并辅以多视角一致性评估基准，为研究者提供了系统性的数据支撑。其意义在于推动了生成模型在细粒度物体属性保持方面的研究，使得模型能够更好地处理刚性物体的复杂运动模式，从而提升生成视频的真实感与可信度。这一进展对计算机视觉领域的生成式人工智能发展产生了深远影响。

衍生相关工作

围绕ConsIDVid数据集，学术界衍生出多项经典研究工作。以ConsID-Gen为代表的视图辅助生成框架，通过引入未标定辅助视图和双流视觉-几何编码器，显著提升了身份保持能力。同时，基于该数据集构建的ConsIDVid-Bench评估体系，为多视角一致性度量设立了新标准，促进了如MEt3R、Chamfer Distance等几何感知指标的发展。这些工作不仅推动了Wan、HunyuanVideo等视频生成模型的改进，也为后续研究提供了可靠的实验平台和性能基准，持续影响着生成式视觉模型的演进方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集