What Are You Doing? (WYD)
收藏github2025-03-03 更新2025-03-08 收录
下载链接:
https://github.com/google-deepmind/wyd-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
What Are You Doing? (WYD)是一个用于细粒度评估可控图像到人类视频生成的新的基准,包含1,544个经过精心收集和注释的、带有56个细粒度类别的标题视频。这些允许我们系统地测量人类生成的9个方面,包括动作、交互和运动。我们还提出了利用我们的注释来更好地捕捉人类评价的自动指标。
What Are You Doing? (WYD) is a novel benchmark for fine-grained evaluation of controllable image-to-human video generation. It includes 1,544 meticulously curated and annotated caption videos that fall into 56 fine-grained categories. These resources allow us to systematically measure 9 core aspects of human-generated video content, including actions, interactions, and movements. We also propose automatic metrics that leverage our annotations to better capture human evaluation results.
创建时间:
2025-03-03
原始信息汇总
The ‘What Are You Doing?’ (WYD) benchmark
-
简介:WYD是一个用于细粒度评估可控图像到视频生成的新基准,涉及人类行为、交互和运动等方面。
-
数据集构成:包含1,544个配有标题的视频,每个视频都经过精心收集和标注,分为56个细粒度类别。
-
文件内容:
- 数据集标注在
wyd.json文件中,详细说明在DATASET.md。 - 每个视频中的演员的人为验证视频分割掩码(即将发布)。
- 用于重现评估度量的代码(即将发布)。
- 数据集标注在
-
引用信息:
@article{bugliarello-etal-2025-wyd, title={What Are You Doing? A Closer Look at Controllable Human Video Generation}, author={Bugliarello, Emanuele and Arnab, Anurag and Paiss, Roni and Kindermans, Pieter-Jan and Schmid, Cordelia}, year={2025}, }
-
许可和免责声明:
- 软件许可:Apache License, Version 2.0 (Apache 2.0)。
- 其他材料许可:Creative Commons Attribution 4.0 International License (CC-BY)。
- 软件和材料按“AS IS”基础分发,无任何明示或暗示的保证或条件。具体语言和权限请参考相关许可。这不是官方的Google产品。
搜集汇总
数据集介绍

构建方式
‘What Are You Doing?’ (WYD) 数据集的构建,是通过精心收集与标注的1,544个配以说明文字的视频,涵盖56个精细分类类别,旨在对人类生成的9个方面进行全面评估,包括动作、交互和运动等。此数据集的构建旨在为细粒度评估的可控图像到视频生成提供基准。
特点
WYD 数据集的特点在于其精细化的分类体系与全面的评估维度,通过自动化的评估指标,能够更精准地捕捉人类评价。数据集所包含的视频均经过人工标注,确保了类别的高准确性与高质量。此外,数据集的开放性许可使其在学术与工业界具有广泛的可用性。
使用方法
使用WYD数据集时,研究者可以参照所提供的‘wyd.json’文件中的数据集标注,以及 DATASET.md 文件中的详细说明。数据集的评估指标代码也将公布,以便研究者能够重现论文中的实验结果。在使用时,需遵循Apache 2.0和CC-BY的许可协议,确保合规使用。
背景与挑战
背景概述
‘What Are You Doing?’ (WYD)数据集,是在2025年由Emanuele Bugliarello、Anurag Arnab、Roni Paiss、Pieter-Jan Kindermans和Cordelia Schmid等研究人员提出的一项针对可控人类视频生成的细粒度评估新基准。该数据集包含了1,544个经过精心收集和标注的视频,涵盖56个细粒度类别,旨在为评估人类生成的9个方面,包括动作、交互和运动等提供系统性的衡量方法。WYD数据集的创建,对细粒度人类视频生成领域的研究产生了显著影响,为相关领域的研究提供了重要的数据资源。
当前挑战
在研究领域问题上,WYD数据集面临的挑战在于如何精确控制图像到视频的生成过程,以实现逼真的人类动作和交互。构建过程中遇到的挑战包括:1) 精细标注的准确性和一致性,这对于保证数据集质量至关重要;2) 自动评估指标的构建与验证,需要确保指标能够有效地反映人类评估的结果;3) 数据集的多样性和覆盖性,需要确保包含足够多的动作和交互类别以供广泛研究使用。
常用场景
经典使用场景
在计算机视觉与生成模型研究领域,‘What Are You Doing?’ (WYD) 数据集提供了一个精细化的评估标准,用于评估可控的人类图像到视频生成的性能。该数据集通过其1,544个精心收集并带有56个细粒度类别注释的视频,成为研究者在动作、交互和运动等方面进行系统性能测量的重要资源。
实际应用
在实际应用中,WYD 数据集可用于改进虚拟现实、增强现实以及人机交互系统中的动作识别和生成算法,为这些技术提供更加真实和多样化的行为数据,从而提升用户体验。
衍生相关工作
基于WYD 数据集,学术界可望衍生出更多关于细粒度行为识别、视频生成模型以及自动评估方法的研究。该数据集已成为相关领域经典工作的基础,推动了如视频编辑、动作预测等后续研究的深入。
以上内容由遇见数据集搜集并总结生成



