text-2-video-human-preferences-pika2.2

Hugging Face2025-04-08 更新2025-04-09 收录

下载链接：

https://huggingface.co/datasets/Rapidata/text-2-video-human-preferences-pika2.2

下载链接

链接失效反馈

官方服务：

资源简介：

Pika 2.2人类偏好数据集包含了约756k个人类标注者的响应，用于评估Pika 2.2视频生成模型。每个条目包括两个视频链接和用户对视频的对齐度、连贯性和偏好评分。

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

在视频生成模型评估领域，text-2-video-human-preferences-pika2.2数据集通过大规模人类标注构建而成。研究团队利用Rapidata Python API平台，在24小时内收集了来自29,000名标注者的756,000条响应数据，采用成对视频比较范式，每个样本包含两段生成视频及其对应的文本提示，通过加权聚合标注结果形成0-1区间的标准化评分。数据集构建过程特别关注三个核心维度：提示对齐度、逻辑连贯性和视觉偏好，每个维度均通过特定问题引导标注者进行专业评估。

特点

该数据集最显著的特征在于其多维度的细粒度评估体系，不仅包含整体加权评分，还保留了原始标注的详细结果。数据样本涵盖Pika 2.2与Sora、Hunyuan等主流视频生成模型的横向对比，提供下采样GIF预览和原始高清视频链接的双重访问方式。独特的评分架构允许研究者从提示语义匹配度（Alignment）、物理逻辑合理性（Coherence）和美学吸引力（Preference）三个独立维度进行交叉分析，为视频生成模型的性能评估提供了立体化的衡量标准。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接访问基准测试结果和原始标注数据。典型应用场景包括：通过加权评分列进行模型性能排名分析，利用详细结果列开展标注者一致性研究，或下载完整视频集进行生成质量的可视化对比。数据集特别适用于视频生成模型的对抗性评估，用户可基于prompt字段构建特定主题的测试集，通过Alignment指标优化文本理解能力，借助Coherence分数改进物理模拟算法，参考Preference值提升视觉表现力。所有数据均采用Apache 2.0许可，支持学术和商业场景的灵活应用。

背景与挑战

背景概述

Pika 2.2 Human Preferences数据集由Rapidata团队构建，旨在评估文本到视频生成模型Pika 2.2的性能。该数据集收集了约756,000条人类反馈，涉及29,000名标注者，通过大规模人类偏好标注来量化视频生成模型在文本对齐性、逻辑连贯性和视觉吸引力等方面的表现。数据集的核心研究问题聚焦于如何通过人类反馈优化生成视频的质量，为视频生成模型的评估提供了重要基准。该数据集在短时间内完成标注，展示了Rapidata平台在大规模数据收集方面的技术优势，对推动文本到视频生成领域的研究具有重要意义。

当前挑战

该数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，文本到视频生成任务本身具有高度复杂性，如何准确评估生成视频与文本描述的匹配度（对齐性）、视频内容的逻辑合理性（连贯性）以及视觉吸引力（偏好）是核心难题。在构建过程中，大规模人类标注的协调与质量控制是主要挑战，确保标注结果的一致性和可靠性需要精细的设计与执行。此外，视频数据的存储与处理也带来了技术上的复杂性，尤其是高分辨率视频的传输与标注效率问题。

常用场景

经典使用场景

在文本到视频生成领域，text-2-video-human-preferences-pika2.2数据集通过大规模人类标注反馈，为评估不同视频生成模型的性能提供了标准化基准。该数据集的核心应用场景在于对比分析Pika 2.2与其他主流模型（如Sora、Hunyuan等）在提示词对齐度、视觉连贯性和美学偏好三个维度的表现差异。研究人员可通过配对视频比较范式，量化分析29,000名标注者对756,000组视频样本的评分数据，从而建立客观的生成质量评估体系。

实际应用

在实际应用中，该数据集已成为视频生成模型迭代优化的关键工具。科技公司利用其标注结果优化提示词工程，提升生成内容与用户意图的匹配精度；影视制作团队参考美学偏好评分筛选符合大众审美的生成方案；教育机构则基于连贯性数据开发物理规律教学素材。更值得注意的是，该数据集建立的评估框架已被多家企业采纳为内部模型测试标准，显著降低了人工评估成本。

衍生相关工作

基于该数据集衍生的经典研究包括多模态对齐度量表的构建、生成质量预测模型的开发等。MIT媒体实验室利用其标注数据训练出VideoScore预测模型，实现了生成质量的自动化评估；斯坦福大学团队则通过分析对齐度差异，提出了动态提示词优化算法PromptTuner。这些工作不仅推进了文本到视频生成技术的发展，更催生了Human-in-the-loop评估范式在AIGC领域的广泛应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集