text-2-video-human-preferences-wan2.1

Hugging Face2025-03-11 更新2025-03-12 收录

下载链接：

https://huggingface.co/datasets/Rapidata/text-2-video-human-preferences-wan2.1

下载链接

链接失效反馈

官方服务：

资源简介：

Alibaba Wan2.1人类偏好数据集，包含约45,000个针对Alibaba Wan 2.1视频生成模型的人类注释，用于评估模型的性能。数据集包括配对视频比较，每个条目包含两个视频链接、用户评分和详细结果。评分分为对齐度、连贯性和偏好三个维度。

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

text-2-video-human-preferences-wan2.1数据集通过收集人类对阿里巴巴Wan2.1视频生成模型的反馈构建而成，包含了约45000条人类注释，用于评估模型在特定基准上的表现。数据集的构建利用了Rapidata Python API，能够在短时间内大规模收集数据标注。

特点

该数据集的特点在于其全面的人类评价维度，包括视频与提示的匹配度（Alignment）、视频的逻辑一致性（Coherence）以及视频的美观度（Preference）。每条记录包含两个视频文件的链接，以及人类评分者对这些视频在不同维度上的评分和详细结果。

使用方法

使用该数据集时，研究者可以访问包含降采样GIF的链接，以方便查看视频。完整分辨率的视频可通过指定路径获取。数据集中的weighted_results字段提供了从0到1的分数，代表聚合的用户反馈，而detailedResults字段则包含了每个用户的反馈详情。

背景与挑战

背景概述

text-2-video-human-preferences-wan2.1数据集，由Alibaba团队于近期创建，旨在评估Wan 2.1视频生成模型在特定基准上的表现。该数据集收集了大约45,000条人类注释，通过Rapidata Python API在短短1小时内完成，体现了数据标注的大规模与高效率。数据集的核心研究问题聚焦于视频生成模型与给定提示的匹配度、逻辑一致性以及视觉吸引力，对相关领域如视频分类、文本到视频和文本分类产生了显著影响。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：确保视频内容与文本提示之间的一致性（Alignment），视频的逻辑连贯性（Coherence），以及视频的美观性（Preference）。此外，大规模收集人类反馈数据也面临着数据质量控制和标注偏见的挑战。

常用场景

经典使用场景

text-2-video-human-preferences-wan2.1数据集广泛用于评估文本到视频生成模型的质量，特别是在阿里巴巴Wan2.1视频生成模型的表现。该数据集通过收集人类对视频对齐性、连贯性和偏好性的反馈，为研究人员提供了一个全面评价生成视频质量的基准。

实际应用

在实际应用中，text-2-video-human-preferences-wan2.1数据集可以帮助开发者改进视频生成算法，使其生成的视频更符合人类用户的期望。此外，它也可以被内容创作者用来指导视频制作，以提高内容的吸引力和观众的互动性。

衍生相关工作

基于该数据集，研究者们可以开展一系列衍生工作，如深入分析人类偏好与视频质量之间的关系，探索不同文化背景下用户偏好的差异，以及开发新的视频生成和评估方法。这些研究将进一步推动计算机视觉和自然语言处理领域的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集