What Are You Doing? (WYD)

Name: What Are You Doing? (WYD)
Creator: 谷歌DeepMind
Published: 2025-03-07 01:59:29
License: 暂无描述

arXiv2025-03-07 更新2025-03-08 收录

下载链接：

https://github.com/google-deepmind/wyd-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

‘What Are You Doing?’（WYD）是由谷歌DeepMind创建的一个新基准数据集，旨在对可控图像到视频生成中的人类进行细粒度评估。该数据集包含1544个配有字幕的视频，经过精心收集和标注，分为56个细粒度类别。数据集涵盖各种人类行为、互动和运动，为视频生成模型提供了丰富多样的测试素材。通过9个类别和56个子类别的详细标注，WYD能够系统地评估视频级和人类级生成的关键方面，推动人类视频生成模型的研究与发展。

'What Are You Doing?' (WYD) is a novel benchmark dataset developed by Google DeepMind, designed for fine-grained evaluation of human subjects in controllable image-to-video generation. This dataset includes 1,544 captioned videos that were meticulously collected and annotated, and is categorized into 56 fine-grained categories. It covers a wide range of human behaviors, interactions and movements, providing rich and diverse test resources for video generation models. With detailed annotations spanning 9 top-level categories and 56 fine-grained subcategories, WYD enables systematic assessment of critical aspects of both video-level and human-level generation, thereby advancing the research and development of human video generation models.

提供机构：

谷歌DeepMind

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

What Are You Doing? (WYD) 数据集通过从互联网平台上的公开数据集中筛选和标注视频来构建。首先，从 YouTube 和 Flickr 等平台收集了 Kinetics、DiDeMo 和 Oops 等数据集，这些数据集包含了不同人体姿势、服装、年龄和背景的人类，以及各种各样的动作。然后，通过一系列的过滤步骤，包括确保视频中有人类演员、移除场景切换、确保人类可见、移除过短或过长的视频、保持高文本对齐、确保最小分辨率，以及最终的人工验证，从原始的 18,351 个视频中筛选出 1,544 个高质量的视频。此外，WYD 数据集还根据九个类别和 56 个子类别对视频进行了细致的标注，包括演员数量、演员大小、遮挡情况、动作类型、运动类型、相机运动、视频运动、演员互动和场景。这些标注使得 WYD 数据集能够对视频生成模型在合成人类方面的性能进行细粒度的评估。

使用方法

WYD 数据集可用于评估可控视频生成模型在合成人类方面的性能。用户可以使用该数据集对模型进行测试，并根据模型在视频质量、逐帧相似性和运动相似性等方面的表现进行评估。此外，WYD 数据集还提供了视频分割掩码，使得用户可以对模型在人类级别上的性能进行评估。WYD 数据集的发布旨在推动可控人类视频生成模型的研究进展。

背景与挑战

背景概述

在机器学习研究领域，高质量的数据集对于推动进步至关重要。尽管视频生成领域日益受到关注，但缺乏一个全面的数据集来评估人类生成。现有数据集，如TikTok和TED-Talks，在多样性方面存在不足，无法完全捕捉视频生成模型的能力。为此，Google DeepMind的研究人员推出了名为“What Are You Doing?”（WYD）的新数据集，旨在对可控的图像到视频生成进行细粒度评估。WYD数据集包含1,544个带有描述的视频，这些视频被精心收集并标注了56个细粒度类别。这些类别允许研究人员系统地测量9个方面的人类生成性能，包括动作、交互和运动。此外，还提出了利用这些注释的自动指标，以更好地捕捉人类评估。

当前挑战

WYD数据集面临的挑战包括：1) 所解决的领域问题的挑战，即如何全面评估可控的人类视频生成模型；2) 构建过程中所遇到的挑战，包括如何确保数据集的多样性、复杂性和高质量，以及如何对视频进行细粒度标注。此外，还需要开发有效的自动评估指标，以更好地捕捉人类评估，并推动可控人类视频生成模型的发展。

常用场景

经典使用场景

What Are You Doing? (WYD) 数据集是一个为评估可控人体视频生成而设计的基准数据集。它由 1,544 个带注释的视频组成，涵盖了 56 个细粒度类别，可以系统地衡量人类生成的 9 个方面，包括动作、互动和运动。WYD 的经典使用场景包括评估和比较可控图像到视频生成模型的能力，以及分析模型在不同类别和子类别中的表现。通过使用 WYD，研究人员可以深入了解模型在生成人体动作、互动和运动方面的能力，并识别出需要改进的领域。

解决学术问题

WYD 数据集解决了现有基准数据集在可控人体视频生成评估方面的局限性。现有的数据集，如 TikTok 和 TED-Talks，缺乏多样性和复杂性，无法充分捕捉视频生成模型的能力。WYD 通过引入细粒度类别和自动度量，提供了对可控人体视频生成模型更全面的评估。它解决了模型在生成人体动作、互动和运动方面的挑战，并揭示了现有模型在生成跨场景或非典型动作、与物体互动以及生成小尺寸人体方面的局限性。

实际应用

WYD 数据集的实际应用场景包括电影制作、游戏开发、虚拟现实和增强现实等领域。它可以用于生成逼真的人体动作、互动和运动，从而为艺术家和开发者提供更精确的控制。WYD 的多样性和复杂性使其成为评估和控制人体视频生成模型性能的理想选择，有助于推动这些技术在现实世界中的应用。

数据集最近研究