qgfvadfuvads/I2V-pairs-m1xm3

Name: qgfvadfuvads/I2V-pairs-m1xm3
Creator: qgfvadfuvads
Published: 2026-04-25 05:03:40
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/qgfvadfuvads/I2V-pairs-m1xm3

下载链接

链接失效反馈

官方服务：

资源简介：

I2V Pairs (m1xm3)数据集是一个用于偏好/DPO研究的图像到视频生成配对数据集。每个条目包含从相同源图像（源视频的第一帧）和相同标题生成的两个视频，但使用了两种不同的采样配置（方法m1：CFG=7，steps=15 vs 方法m3：CFG=3，steps=50）。数据集包含1284个经过过滤的干净配对，源视频来自OpenVid（部分112-113），为5秒的720p剪辑。数据集文件包括metadata.json、videos.tar和source_videos.tar。过滤标准包括视频不可读、静态、首帧漂移等。源视频继承自OpenVid-1M（CC-BY 4.0），生成输出以CC-BY-NC-4.0发布。

The I2V Pairs (m1xm3) dataset is a collection of paired image-to-video generations for preference / DPO research. Each entry contains two videos generated from the same source image (first frame of the source video) and the same caption, but with two different sampling configurations (method m1: CFG=7, steps=15 vs method m3: CFG=3, steps=50). The dataset includes 1284 clean pairs after filtering for unreadable, static, or first-frame-drift videos. Source videos are from OpenVid (parts 112-113), 5s clips at 720p. The dataset files are metadata.json, videos.tar, and source_videos.tar. Filtering thresholds include mp4_unreadable, static, first_frame_drift, and pair_identical. Source clips inherit from OpenVid-1M (CC-BY 4.0), and generated outputs are released under CC-BY-NC-4.0.

提供机构：

qgfvadfuvads

搜集汇总

数据集介绍

构建方式

该数据集专为图像到视频生成领域的偏好对齐及直接偏好优化（DPO）研究而构建。其核心基于Wan2.2-TI2V-5B模型于720p分辨率下，针对同一源图像（取自OpenVid数据集112-113部分的5秒片段首帧）与相同文本描述，采用两种截然不同的采样配置（方法m1：无分类器引导尺度CFG=7，采样步数15步；方法m3：CFG=3，采样步数50步）生成视频对。经严格筛选，剔除无法读取、静态化（帧间平均绝对差值小于1.5）、首帧偏离（与源图像首帧峰值信噪比低于18dB）以及生成对高度相似（PSNR高于35dB）等无效样本，最终保留1284个高质量视频对。

使用方法

使用者首先需下载并解压videos.tar与source_videos.tar压缩包，得到按结构存放的生成视频与源视频文件。随后通过加载metadata.json文件，即可获取包含唯一标识符、文本描述、两个生成视频文件名及对应源视频文件名的结构化元数据。借助Python标准库，寥寥数行代码即可完成数据加载与解析，进而将视频对及其偏好标签高效地接入DPO训练框架或视频分类任务的数据管道。数据以CC-BY-NC-4.0许可发布，需注意遵循源视频来自OpenVid-1M的CC-BY 4.0协议。

背景与挑战

背景概述

图像到视频（I2V）生成是计算机视觉与多模态学习领域的前沿课题，旨在通过静态图像驱动动态视频内容的生成，对视频创作、智能教育及虚拟现实等领域具有深远影响。然而，该领域长期受困于生成质量的主观性评估难题，使得偏好对齐成为技术突破的关键瓶颈。在此背景下，由多机构研究者于2025年4月联合构建的I2V-pairs-m1xm3数据集应运而生，其核心研究问题聚焦于如何通过对比不同采样策略下的生成效果，为直接偏好优化（DPO）研究提供标准化基准。该数据集从OpenVid视频库中精选1284对高清视频，每对均以相同源图像和文本描述为基础，仅通过调整CFG参数与步数（m1: CFG=7, steps=15 vs m3: CFG=3, steps=50）生成差异样本，为探索视频生成中的偏好学习范式提供了关键数据支撑。

当前挑战

该数据集围绕两大核心挑战展开：其一，在领域问题层面，文本到视频生成领域长期缺乏可靠的量化偏好信号，传统评估指标（如FVD）难以捕捉人类对动态细节、运动自然度及语义一致性的细微偏好，而I2V-pairs-m1xm3通过可控对比实验设计，系统性研究了不同采样参数对生成结果的影响，为建立基于人类偏好的视频生成模型优化提供了实证基础。其二，在数据构建过程中，团队面临多维度质量过滤的复杂挑战：需剔除不可读视频、帧间差异过小的静态失败样本（均值差<1.5）、源图像漂移案例（PSNR<18dB）以及生成对几乎无差异的冗余数据（PSNR>35dB），最终从原始生成集中筛选出84.3%的洁净配对。此外，如何确保源视频与生成视频在720p高清分辨率下的计算可行性，同时保持不同采样策略间的语义一致性，亦是技术实现上的重大考验。

常用场景

经典使用场景

在图像到视频（I2V）生成领域，如何系统地评估不同采样配置对生成质量的影响一直是研究难点。I2V-pairs-m1xm3数据集通过固定源图像和文本描述，仅改变采样方法（m1: CFG=7, step=15与m3: CFG=3, step=50），构建了1284对成对生成视频，为偏好学习（Preference Learning）和直接偏好优化（DPO）研究提供了理想的数据基石。这些精心筛选的配对样本，使得研究者能够精确对比不同生成参数在运动自然度、时序一致性和视觉保真度上的差异，从而推动更鲁棒的I2V模型优化策略的探索。

解决学术问题

该数据集有效解决了图像到视频生成中缺乏标准化对比基准的学术问题。传统评估方法往往依赖单一视频的质量打分，难以剥离源图像和文本描述对评价的干扰。通过成对设计，I2V-pairs-m1xm3使得研究者能够聚焦于采样策略本身对生成效果的因果影响，为DPO类方法提供了天然的偏好标签来源。这一资源的出现，推动了从生成质量评估向偏好建模的范式转变，使得研究者能够更系统地分析CFG比例与采样步数之间的权衡关系，对理解扩散模型中的时序逼近行为具有重要理论意义。

实际应用

在实际应用中，该数据集可直接服务于视频生成模型的精细调优与用户体验优化。例如，在短视频创作平台中，通过在该数据集上训练的偏好模型，能够自动选择更符合人类视觉偏好的采样参数组合，从而提升用户对AI生成内容的满意度。此外，该数据集还可用于校验不同硬件环境下（如边缘设备与云端服务器）的最优采样策略配置，指导部署时的参数选择。其源视频来自开放的OpenVid数据集，保证了内容的多样性与通用性，便于移植到广告创意生成、虚拟主播动画、教育视频合成等商业场景中，显著降低了对人工质量评估的依赖。

数据集最近研究