EntityBench

github2026-05-15 更新2026-05-17 收录

下载链接：

https://github.com/Catherine-R-He/EntityBench

下载链接

链接失效反馈

官方服务：

资源简介：

EntityBench是一个用于长范围多镜头视频生成的基准测试，包含140个剧集（2,491个镜头），源自真实叙事媒体，具有明确的每镜头实体调度，跟踪角色、对象和位置，分为简单/中等/困难三个层级，支持最多50个镜头、13个跨镜头角色、8个跨镜头位置、22个跨镜头对象，以及最多48个镜头的重复间隔。

EntityBench is a benchmark for long-span multi-shot video generation. It comprises 140 episodes (2,491 shots) derived from real-world narrative media, featuring explicit per-shot entity scheduling that tracks characters, objects and locations. The benchmark is categorized into three difficulty tiers: simple, medium and hard, and supports scenarios with up to 50 shots, 13 cross-shot characters, 8 cross-shot locations, 22 cross-shot objects, as well as a maximum repeat interval of 48 shots.

创建时间：

2026-05-14

原始信息汇总

EntityBench 数据集概述

EntityBench 是一个面向多镜头视频生成中实体一致性评估的基准数据集，旨在衡量长序列视频生成中角色、物体和地点跨镜头的一致性。

数据集规模与结构

总集数：140 集
总镜头数：2,491 个镜头
难度划分：分为 easy / medium / hard 三个等级
数据来源：源自真实叙事媒体，包含明确的每镜头实体调度表

实体覆盖范围

数据集在实体维度上具备以下特征：

维度	覆盖范围
跨镜头角色	最多 13 个
跨镜头地点	最多 8 个
跨镜头物体	最多 22 个
单集最大镜头数	50 个
实体重现间隔	最长 48 个镜头

评估体系

EntityBench 配备了三支柱评估框架：

支柱一（Pillar 1）：镜头内视觉质量评估
支柱二（Pillar 2）：提示遵循对齐度评估
支柱三（Pillar 3）：跨镜头实体一致性评估
- 包含 fidelity gate，仅对准确出现的实体进行交叉镜头评分

发布内容

data/scripts/：140 个 JSON 文件，包含每镜头的完整实体调度表和注册提示
data/splits/：easy / medium / hard 等级划分
eval/：评估代码（单 GPU 评估器、多 GPU 启动器、方法对比工具）
examples/run_eval_example.sh：启动脚本示例

基线方法

论文提出 EntityMem 系统，一种记忆增强生成方法，在生成开始前将已验证的每实体视觉参考存储在持久记忆库中，使视频骨干网络能够跨镜头检索每个实体的外观。

论文引用

bibtex @article{he2026entitybench, title = {EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation}, author = {He, Ruozhen and Meng, Wei and Yang, Ziyan and Ordonez, Vicente}, journal = {Preprint}, year = {2026}, }

搜集汇总

数据集介绍

构建方式

EntityBench基于真实叙事媒体构建，从影视剧本、小说等长篇幅叙事材料中提取140个独立场景（episode），共计2491个镜头（shot）。每个镜头均标注了详细的实体调度表，同时追踪角色、物体与位置三类实体在镜头间的出现与消失。数据集按难度划分为简单、中等、困难三个层级，其中困难场景最长包含50个镜头、13个跨镜头角色、8个跨镜头位置、22个跨镜头物体，实体重现间隔最高达48个镜头，以此模拟长距离多镜头视频生成中实体一致性面临的实际挑战。

使用方法

使用EntityBench时，首先生成视频文件并按`<results_dir>/<episode_id>/<scene>_<shot>.mp4`格式组织。随后通过`eval/run_eval_distributed.py`（多GPU）或`eval/evaluate_benchmark.py`（单GPU）运行评估，需指定结果目录、脚本目录、划分文件及评估支柱（1-3均可选）。系统支持`--resume`断点续评与`--llm_concurrency`并行推理控制。评估结果可用`eval/compare_methods.py`进行方法间对比，生成差异报告。环境配置基于PyTorch与Diffusers，LLM评分依赖Azure-OpenAI兼容接口。

背景与挑战

背景概述

随着视频生成技术的蓬勃发展，多镜头视频生成作为单镜头生成的延伸，旨在构建连贯的视觉叙事，然而在长序列中维持角色、物体及场景等实体的一致性仍是核心瓶颈。EntityBench数据集由字节跳动与莱斯大学的研究者于2026年提出，包含140个剧情片段（总计2491个镜头），源自真实叙事媒体，并显式标注每个镜头的实体日程表，覆盖易、中、难三个层级，最长序列达50个镜头、13个跨镜头角色、8个跨镜头场景及22个跨镜头物体，实体重现间隔最大达48个镜头。该数据集填补了现有评估体系在实体覆盖度与一致性度量上的空白，为多镜头视频生成的标准化比较奠定了坚实基石。

当前挑战

EntityBench所面临的挑战主要体现在两方面。领域问题层面，现有方法在跨镜头实体一致性上随重现距离增加而急剧退化，缺乏对角色、物体与场景三者同时追踪的综合评估机制，且传统指标难以区分帧内质量、提示遵循度与跨镜头一致性。构建过程中，数据集从真实叙事媒体中提取实体日程需精确解析复杂剧情结构，人工标注成本高昂；同时，为生成可靠基线而设计的EntityMem系统需在生成前存储经验证的实体视觉参考，这要求模型具备高效记忆检索与跨镜头外观理解能力，技术实现难度颇高。

常用场景

经典使用场景

在长程多镜头视频生成领域，EntityBench被广泛用于评估模型在跨镜头场景中维持实体（如角色、物体、地点）一致性的能力。其140个剧集、2491个镜头的结构化数据，配合显式的逐镜头实体调度表，使得研究者能够系统性地测试视频生成模型在简单、中等、困难三种难度层级下的表现，尤其关注长达50个镜头、13个跨镜头角色和48个镜头回归间隔的复杂情境。该基准通过将帧内视觉质量、提示跟随对齐和跨镜头实体一致性三个评估支柱解耦，并引入保真度门控机制，确保只有精确的实体外观才计入一致性评分，从而为多镜头视频生成提供了一套标准化、可重复的评测框架。

解决学术问题

EntityBench解决了多镜头视频生成领域长期存在的评估碎片化问题。以往研究依赖独立生成的提示集，实体覆盖范围有限，一致性度量简单粗糙，使得不同方法之间难以进行公平比较。该数据集通过构建源自真实叙事媒体的结构化剧集，并配备显式的实体调度追踪，首次实现了对跨镜头实体一致性的精确量化评估。其保真度门控机制有效剔除了视觉质量低下但仍被错误纳入一致性统计的样本，显著提升了评估的科学性。这一工作为视频生成领域建立了一个公正、全面的基准，推动了关于长程一致性保持机制的深入研究，并催生了诸如EntityMem等基于记忆增强的生成系统。

实际应用

在实际应用中，EntityBench的核心价值在于为影视制作、虚拟现实和游戏叙事等需要长程视觉连贯性的场景提供技术验证工具。影视后期团队可利用该基准测试自动视频生成工具在延续角色外观、场景道具一致性方面的表现，降低人工修补成本。虚拟现实内容开发者能够借助其多层次难度设置，评估系统在复杂叙事线中维持物体和地点不变性的鲁棒性。此外，该数据集的三支柱评估框架可被集成到自动化质检管线中，用于广告、教育视频等商业内容的批量生成环节，确保输出的视觉连贯性符合专业标准，从而加速生成式视频技术从实验室走向工业界的落地进程。

数据集最近研究