text-2-video-human-preferences-motion

Hugging Face2026-02-26 更新2026-02-27 收录

下载链接：

https://huggingface.co/datasets/datapointai/text-2-video-human-preferences-motion

下载链接

链接失效反馈

官方服务：

资源简介：

VidPrefMotion 是一个大规模的人类偏好数据集，专门用于评估AI生成的人类动作视频。该数据集包含来自4,349名标注者的29,283对偏好标签，比较了四种前沿视频生成模型在六种人类动作类别和三个评估维度上的表现。数据集的主要目的是为视频生成模型提供真实的人类偏好数据，特别是在时间连贯性、视觉美学和提示忠实度等关键维度上。数据集结构上，每一行代表一个标注者对两个AI生成视频的偏好选择。主要字段包括提示ID、提示文本、动作子类别、生成视频的模型、评估维度、标注者的选择、显示顺序以及响应时间等。评估维度分为连贯性、美学和提示忠实度，动作子类别包括行走、跳舞、说话、运动、静止和多人物互动。数据集还包含了模型排名、数据质量控制方法（如位置偏差控制、响应时间跟踪等）以及详细的标注方法论。该数据集适用于奖励模型训练、模型基准测试、视觉语言模型校准和评估研究等多种应用场景。数据集采用CC-BY-4.0许可协议发布。

VidPrefMotion is a large-scale human preference dataset specifically designed for evaluating AI-generated human action videos. It contains 29,283 preference label pairs from 4,349 annotators, comparing the performance of four state-of-the-art video generation models across six human action categories and three evaluation dimensions. The primary goal of this dataset is to provide authentic human preference data for video generation models, especially on key dimensions such as temporal coherence, visual aesthetics, and prompt faithfulness. Structurally, each row represents an annotator's preference choice between two AI-generated videos. The main fields include prompt ID, prompt text, action subcategory, video generation model, evaluation dimension, annotator's choice, display order, and response time, among others. The evaluation dimensions are categorized into coherence, aesthetics, and prompt faithfulness, while the action subcategories include walking, dancing, speaking, locomotion, static pose, and multi-person interaction. The dataset also includes model rankings, data quality control methods (such as position bias control, response time tracking, etc.), and detailed annotation methodologies. This dataset is applicable to multiple application scenarios such as reward model training, model benchmarking, vision-language model calibration and evaluation research. It is released under the CC-BY-4.0 license.

创建时间：

2026-02-25

搜集汇总

数据集介绍

构建方式

在人工智能视频生成领域，评估人类动作质量一直是一项复杂挑战。该数据集通过精心设计的流程构建，首先基于六种人类动作类别生成了60个多样化文本提示，涵盖行走、舞蹈、交谈、运动、静止及多人互动等场景。随后利用四种前沿视频生成模型，通过Fal.ai API统一生成4至5秒的视频片段，确保分辨率与宽高比一致。数据标注环节通过Datapoint AI的移动端应用平台，邀请4349名真实用户进行强制选择的成对比较，每对视频均随机左右排列以控制位置偏差，最终收集了29283条人工偏好标注，并通过Dawid-Skene方法进行聚合，形成354条高质量比较记录。

使用方法

该数据集为视频生成模型的优化与评估提供了直接的应用路径。研究人员可通过Hugging Face的`datasets`库便捷加载数据，每条记录包含同一提示下两个模型生成视频的成对比较，以及三个质量维度的加权偏好分数。这些数据可直接用于训练视频奖励模型，为强化学习人类反馈或直接偏好优化提供监督信号。同时，数据集的结构化比较结果可用于基准测试，量化评估不同模型在人类动作生成上的性能差异。此外，详细的每标注者投票记录与时间戳支持对标注行为模式的分析，有助于理解自动化视觉语言模型评估与人类判断之间的差异，推动更精准的视频评估方法发展。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，文本到视频生成模型在近年来取得了显著进步，然而如何客观、精准地评估生成视频中的人类动作质量，始终是计算机视觉与多媒体领域悬而未决的核心难题。Datapoint AI机构于2026年发布了名为“text-2-video-human-preferences-motion”的大规模人类偏好数据集，该数据集聚焦于AI生成视频中人类动作的评估，涵盖了行走、舞蹈、交谈、运动等多种复杂动作类别。通过汇集来自4349名真实标注者的29283对偏好标注，该数据集对Grok Imagine、Veo 3 Fast等四款前沿视频生成模型进行了系统化比较，旨在为视频奖励模型训练、生成模型基准测试以及自动化评估工具的校准提供坚实的数据基础。

当前挑战

该数据集致力于应对文本到视频生成领域中人类动作质量评估的固有挑战。人类动作具有高度的细微性和连续性，如步态的自然性、面部微表情的协调性以及多人体交互的物理合理性，这些特性使得自动化视觉语言模型往往难以捕捉其微妙误差，而人类却能轻易辨识。在数据集构建过程中，研究团队面临多重挑战：首先，需要设计能够全面覆盖不同动作类别且具有结构多样性的文本提示集；其次，需确保大规模标注过程中数据的质量与一致性，通过随机化视频呈现位置以控制位置偏差，并验证标注者的参与度；此外，如何从大量个体标注中高效聚合出可靠的共识偏好，亦是数据处理的关键难点。

常用场景

经典使用场景

在生成式人工智能领域，评估视频生成模型的质量，尤其是人类动作的逼真度，一直是一项核心挑战。该数据集通过提供大规模、细粒度的人类偏好标注，为训练视频奖励模型提供了关键支持。研究者可以基于这些成对比较数据，采用强化学习从人类反馈中优化模型参数，从而提升生成视频在连贯性、美学和提示遵循等维度的表现。

解决学术问题

该数据集直接回应了视频生成研究中自动化评估的局限性问题。传统的视觉语言模型往往难以捕捉人类动作中的细微错误，如步态不自然或面部表情失真。通过提供近三万条人类偏好标注，该数据集为构建更可靠的视频质量评估基准、校准自动化评判系统以及研究人类标注行为模式提供了实证基础，推动了视频生成模型评估范式的科学化与精细化。

实际应用

该数据集的实际价值体现在对前沿视频生成模型的直接性能对标与优化上。企业或研究团队可以利用其中的偏好数据，客观比较如Grok Imagine、Veo 3 Fast等不同模型在生成特定人类动作（如行走、舞蹈）时的优劣。这为模型选型、迭代方向提供了数据驱动的决策依据，并能直接用于训练定制化的奖励模型，以提升自身产品在生成人物动作视频时的用户体验与市场竞争力。

数据集最近研究