CoW-Bench

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/OpenRaiser/CoW-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CoW-Bench 是一个用于评估视频和图像生成模型对世界构成（CoW）理解的综合基准，重点关注多模态内容生成中的空间关系、对象交互和时间动态。该数据集挑战模型理解复杂空间关系、生成准确表示对象遮挡和分层的内容、保持视频生成的时间一致性以及处理多对象交互和转换的能力。数据集包含 1,435 个样本，每个样本包括任务类别、输入文本描述、输入图像描述、输入图像（PIL Image 对象）和预期视频输出描述。输入模态为文本和图像，输出模态为视频或图像。评估方法基于与预期输出的文本比较。数据集适用于视频生成模型（如 Sora、Kling）和图像生成模型（如 GPT-4V、DALL-E）的评估。

创建时间：

2026-02-08

原始信息汇总

CoW-Bench 数据集概述

数据集基本信息

数据集名称: CoW-Bench
发布者: OpenRaiser
许可证: Apache 2.0
语言: 英语
任务类别: 文本到视频、文本到图像、图像到视频
标签: 视频生成、图像生成、基准测试、空间推理、多模态
规模类别: 1K<n<10K
配置名称: default
数据文件: test

数据集内容与结构

总样本数: 1,435
数据分割: 仅包含测试集
下载大小: 3,054,009,231 字节
数据集大小: 3,055,763,772 字节

特征字段

每个样本包含以下字段：

category: 任务类别（字符串）
inputText: 场景的文本描述（字符串）
inputImageDesc: 输入图像的描述（字符串）
outputVideoExpect: 期望的视频输出描述（字符串）
image: 输入图像（图像对象）

输入输出模态

输入模态: 文本 + 图像（多模态输入）
输出模态: 视频或图像生成

数据集目的与特点

CoW-Bench 是一个用于评估视频和图像生成模型对世界组合理解的综合基准测试，重点关注多模态内容生成中的空间关系、对象交互和时间动态。

核心挑战

理解对象之间复杂的空间关系
生成准确表示对象遮挡和分层的内容
在视频生成中保持时间一致性
处理多对象交互和变换

评估范围

评估视频生成模型（如 Sora、Kling）和图像生成模型（如 GPT-4V、DALL-E）生成符合物理和空间约束内容的能力。

评估方法

评估基础: 基于与期望输出描述的文本比较
评估代码地址: https://huggingface.co/datasets/OpenRaiser/CoW-Bench/tree/main/eval_code

评估代码组件

cut.py：视频帧提取
- 从生成的视频中提取4个均匀间隔的帧
- 将帧组合成2x2网格图像用于评估
- 支持批处理和恢复功能
evaluate.py：模型输出评估
- 通过多模态API比较模型生成的图像/视频与期望输出
- 支持可配置工作线程的批处理
- 自动问题匹配
- 结果保存与组织

目录结构要求

. ├── video/ │ └── {model_name}/ │ └── {category}/ │ └── {video_files}.mp4 ├── video_cut/ │ └── {model_name}/ │ └── {category}/ │ └── {image_files}.jpg ├── Question/ │ └── {category}/ │ └── {question_files}.txt └── Result/ └── {model_name}/ └── {category}/ └── {result_files}.txt

使用方式

加载数据集

python from datasets import load_dataset dataset = load_dataset("OpenRaiser/CoW-Bench", split="test")

搜集汇总

数据集介绍

构建方式

在视觉内容生成领域，CoW-Bench数据集的构建聚焦于评估模型对世界构成（Composition of World）的理解能力。该数据集通过精心设计的多模态输入结构，整合了文本描述与图像信息，旨在模拟复杂的空间关系与对象交互场景。其构建过程涉及从多样化的空间与时间关系类别中筛选样本，确保每个条目均包含清晰的初始状态描述、输入图像及其详细说明，以及期望的视频输出文本，从而形成一个包含1,435个样本的标准化测试集，为生成模型的评估提供了严谨的基础。

特点

CoW-Bench的显著特点在于其专注于空间推理与多模态生成的交叉领域。数据集以文本与图像相结合的多模态输入为核心，要求模型在处理对象遮挡、层次结构及时间动态等复杂关系时保持一致性。它覆盖了多种空间与时间关系类别，如二维分层布局等，并通过统一的评估框架支持对视频与图像生成模型的双重测评。这种设计不仅强化了模型对物理约束的遵从性，也为跨模态内容生成的基准测试设立了新的维度。

使用方法

使用CoW-Bench时，研究人员可通过Hugging Face的datasets库直接加载测试分割，便捷访问包含图像与文本描述的样本。对于模型评估，数据集配套的代码工具支持视频帧提取与多模态API集成：首先利用cut.py从生成视频中提取关键帧并组合成网格图像，随后通过evaluate.py将模型输出与期望描述进行比对。用户需按照指定目录结构组织生成文件，并配置API端点，即可实现批量处理与自动化评分，从而系统化地衡量模型在空间与时间关系理解上的性能。

背景与挑战

背景概述

在人工智能多模态内容生成领域，理解并准确呈现复杂世界构成（Composition of World, CoW）是核心研究问题之一。CoW-Bench数据集由OpenRaiser团队创建，旨在系统评估视频与图像生成模型对空间关系、物体交互及时间动态的建模能力。该数据集聚焦于检验模型能否在生成过程中遵循物理与空间约束，其多模态输入（文本与图像）与多样化输出（视频或图像）的设计，为评估生成式模型的组合推理性能提供了标准化测试平台，推动了生成式人工智能在空间与时间一致性方面的研究进展。

当前挑战

CoW-Bench所针对的领域挑战在于，现有生成模型在组合世界理解方面仍存在显著不足，尤其是在处理复杂空间关系（如物体遮挡、层级结构）、维持多物体交互的时序一致性以及实现跨模态精准对齐等方面。在数据集构建过程中，挑战主要源于如何系统化定义并标注涵盖多样空间与时间关系的测试场景，确保每个样本在输入文本描述、参考图像与预期输出描述之间保持语义一致性与评估可操作性，从而构建一个既全面又可靠的基准评测集。

常用场景

经典使用场景

在视频与图像生成领域，CoW-Bench作为评估模型理解世界构成能力的基准，其经典使用场景聚焦于测试多模态生成模型在复杂空间关系与时间动态方面的表现。该数据集通过结合文本描述与输入图像，要求模型生成符合物理约束的视频或图像，从而评估模型对物体遮挡、层次结构及交互行为的捕捉精度。这一场景广泛应用于前沿生成模型的性能对比与优化，为研究者提供了标准化的测试环境，以推动模型在空间推理与时间一致性上的进步。

衍生相关工作

围绕CoW-Bench数据集，衍生了一系列经典研究工作，主要集中在生成模型的评估方法与性能提升方面。例如，基于该基准的视频生成模型如Sora、Kling等进行了系统化测试，推动了模型在时间一致性上的优化；同时，图像生成模型如GPT-4V、DALL-E也通过该数据集增强了空间推理能力。此外，研究者开发了配套的评估代码，包括视频帧提取与多模态API集成，这些工具促进了标准化评估流程的形成，并为后续基准如动态场景生成、物理模拟等方向的拓展提供了基础框架。

数据集最近研究