What Are You Doing? (WYD)

github2025-03-03 更新2025-03-08 收录

下载链接：

https://github.com/google-deepmind/wyd-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

What Are You Doing? (WYD)是一个用于细粒度评估可控图像到人类视频生成的新的基准，包含1,544个经过精心收集和注释的、带有56个细粒度类别的标题视频。这些允许我们系统地测量人类生成的9个方面，包括动作、交互和运动。我们还提出了利用我们的注释来更好地捕捉人类评价的自动指标。

What Are You Doing? (WYD) is a novel benchmark for fine-grained evaluation of controllable image-to-human video generation. It includes 1,544 meticulously curated and annotated caption videos that fall into 56 fine-grained categories. These resources allow us to systematically measure 9 core aspects of human-generated video content, including actions, interactions, and movements. We also propose automatic metrics that leverage our annotations to better capture human evaluation results.

创建时间：

2025-03-03

原始信息汇总

The ‘What Are You Doing?’ (WYD) benchmark

简介：WYD是一个用于细粒度评估可控图像到视频生成的新基准，涉及人类行为、交互和运动等方面。
数据集构成：包含1,544个配有标题的视频，每个视频都经过精心收集和标注，分为56个细粒度类别。
文件内容：
- 数据集标注在wyd.json文件中，详细说明在DATASET.md。
- 每个视频中的演员的人为验证视频分割掩码（即将发布）。
- 用于重现评估度量的代码（即将发布）。
引用信息：

@article{bugliarello-etal-2025-wyd, title={What Are You Doing? A Closer Look at Controllable Human Video Generation}, author={Bugliarello, Emanuele and Arnab, Anurag and Paiss, Roni and Kindermans, Pieter-Jan and Schmid, Cordelia}, year={2025}, }
许可和免责声明：
- 软件许可：Apache License, Version 2.0 (Apache 2.0)。
- 其他材料许可：Creative Commons Attribution 4.0 International License (CC-BY)。
- 软件和材料按“AS IS”基础分发，无任何明示或暗示的保证或条件。具体语言和权限请参考相关许可。这不是官方的Google产品。

搜集汇总

数据集介绍

构建方式

‘What Are You Doing?’ (WYD) 数据集的构建，是通过精心收集与标注的1,544个配以说明文字的视频，涵盖56个精细分类类别，旨在对人类生成的9个方面进行全面评估，包括动作、交互和运动等。此数据集的构建旨在为细粒度评估的可控图像到视频生成提供基准。

特点

WYD 数据集的特点在于其精细化的分类体系与全面的评估维度，通过自动化的评估指标，能够更精准地捕捉人类评价。数据集所包含的视频均经过人工标注，确保了类别的高准确性与高质量。此外，数据集的开放性许可使其在学术与工业界具有广泛的可用性。

使用方法

使用WYD数据集时，研究者可以参照所提供的‘wyd.json’文件中的数据集标注，以及 DATASET.md 文件中的详细说明。数据集的评估指标代码也将公布，以便研究者能够重现论文中的实验结果。在使用时，需遵循Apache 2.0和CC-BY的许可协议，确保合规使用。

背景与挑战

背景概述

‘What Are You Doing?’ (WYD)数据集，是在2025年由Emanuele Bugliarello、Anurag Arnab、Roni Paiss、Pieter-Jan Kindermans和Cordelia Schmid等研究人员提出的一项针对可控人类视频生成的细粒度评估新基准。该数据集包含了1,544个经过精心收集和标注的视频，涵盖56个细粒度类别，旨在为评估人类生成的9个方面，包括动作、交互和运动等提供系统性的衡量方法。WYD数据集的创建，对细粒度人类视频生成领域的研究产生了显著影响，为相关领域的研究提供了重要的数据资源。

当前挑战

在研究领域问题上，WYD数据集面临的挑战在于如何精确控制图像到视频的生成过程，以实现逼真的人类动作和交互。构建过程中遇到的挑战包括：1) 精细标注的准确性和一致性，这对于保证数据集质量至关重要；2) 自动评估指标的构建与验证，需要确保指标能够有效地反映人类评估的结果；3) 数据集的多样性和覆盖性，需要确保包含足够多的动作和交互类别以供广泛研究使用。

常用场景

经典使用场景

在计算机视觉与生成模型研究领域，‘What Are You Doing?’ (WYD) 数据集提供了一个精细化的评估标准，用于评估可控的人类图像到视频生成的性能。该数据集通过其1,544个精心收集并带有56个细粒度类别注释的视频，成为研究者在动作、交互和运动等方面进行系统性能测量的重要资源。

实际应用

在实际应用中，WYD 数据集可用于改进虚拟现实、增强现实以及人机交互系统中的动作识别和生成算法，为这些技术提供更加真实和多样化的行为数据，从而提升用户体验。

衍生相关工作

基于WYD 数据集，学术界可望衍生出更多关于细粒度行为识别、视频生成模型以及自动评估方法的研究。该数据集已成为相关领域经典工作的基础，推动了如视频编辑、动作预测等后续研究的深入。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集