MemoryBenchmark

Hugging Face2026-02-22 更新2026-02-23 收录

下载链接：

https://huggingface.co/datasets/studyOverflow/MemoryBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

MemBench是一个用于评估视频生成模型在一致性任务上表现的综合性基准数据集，涵盖实体一致性和空间与环境一致性两大类别。数据集包含200个基准条目，基于183个独特的地面真实视频，这些视频来自6个不同的源数据集（CO3D、DL3DV、EgoSchema、OpenHumanVid、MipNerf360、TnT）。每个条目包括生成提示和评估问答对，支持三种任务类型：实体一致性（160条目）、对象一致性（17条目）和空间一致性（23条目）。数据集还提供了8个不同视频生成模型的输出结果，共计超过1500个生成视频。MemBench.json作为主基准文件，详细记录了每个条目的任务ID、实例ID、任务类型、地面真实视频元数据、生成提示和评估提示。该数据集适用于视频生成模型的性能评估和一致性研究。

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在视频生成模型一致性评估领域，MemBench数据集通过系统化的整合与标注流程构建而成。该数据集汇集了来自六个权威源数据集（包括CO3D、DL3DV、EgoSchema、OpenHumanVid、MipNerf360及TnT）的183个原始真实视频，并以此为基础生成了200个基准测试条目。每个条目均经过精心设计，包含多层次生成提示（涵盖完整描述、三时段分割及五时段详细分割）以及针对一致性评估的问答对，确保了评估任务的多样性与结构性。数据集的构建过程注重视频元数据的统一规范与任务类型的清晰划分，为模型性能的量化分析奠定了坚实基础。

使用方法

使用MemBench数据集时，研究者可通过加载统一的JSON基准文件快速访问所有任务条目及其元数据。该文件结构清晰，支持按任务类型（实体一致性、物体一致性、空间一致性）或特定视频实例进行筛选与查询。数据集提供了便捷的路径映射规则，便于程序化读取真实视频与各模型生成的对应视频文件。此外，借助jq等命令行工具或Python脚本，用户可以高效执行复杂的统计分析与数据提取操作。数据集的分层提示与配套评估问答对可直接用于自动化或人工评估流程，为量化比较不同模型在一致性任务上的性能提供了标准化框架。

背景与挑战

背景概述

MemBench（Memory Benchmark）数据集于2025年发布，由研究团队在HuggingFace平台上贡献，旨在构建一个全面评估视频生成模型一致性能力的基准。该数据集聚焦于实体一致性与空间环境一致性两大核心研究问题，通过整合来自CO3D、DL3DV、EgoSchema等六个源数据集的183个真实视频，生成了200个基准条目，覆盖九种前沿视频生成模型的输出。MemBench的建立推动了生成式人工智能在动态视觉内容建模领域的发展，为量化模型在长序列生成中的记忆与逻辑保持能力提供了关键工具。

当前挑战

MemBench致力于解决视频生成中实体与空间一致性维护的固有难题，这些挑战体现在模型生成视频时对象身份、几何属性以及场景布局的时序漂移。在数据集构建过程中，研究团队面临多源视频数据的标准化整合、复杂一致性任务的定义与标注，以及不同生成模型输出的对齐与评估框架设计等困难。此外，确保评估条目在多样性和代表性之间的平衡，也是构建高质量基准的重要挑战。

常用场景

经典使用场景

在视频生成模型的评估领域，MemBench数据集被广泛用于测试模型在一致性任务上的性能，特别是实体一致性与空间环境一致性。研究者利用该数据集包含的200个基准条目和183个真实视频，结合多级生成提示和评估问答对，系统性地衡量模型在生成过程中保持对象身份、几何完整性以及场景空间关系的能力。这一经典场景为模型比较提供了标准化框架，推动了视频生成技术向更高保真度和连贯性发展。

解决学术问题

MemBench数据集有效解决了视频生成研究中长期存在的模型一致性评估难题。传统方法往往缺乏针对实体持久性和空间连贯性的细粒度评测标准，该数据集通过整合来自CO3D、DL3DV等六个来源的多样化视频内容，并设计对象一致性、人类一致性和空间一致性三类任务，为学术社区提供了可量化的评估基准。其意义在于建立了统一的评测体系，使得不同模型如Self-Forcing、MemFlow等的性能能够被客观比较，从而加速了生成模型在时序一致性方面的理论突破与技术优化。

实际应用

在实际应用层面，MemBench数据集为开发高质量视频生成系统提供了关键验证工具。例如，在影视特效、虚拟现实内容制作和自动化视频编辑等领域，模型需要确保生成的视频中物体外观、位置关系在时间维度上保持稳定。该数据集通过涵盖人类动作、多视角场景等多种真实世界情境，帮助工程师检测并修正模型在长序列生成中可能出现的闪烁、变形或逻辑错误，从而提升最终产品的视觉真实感和用户体验，推动生成式AI技术在创意产业中的落地。

数据集最近研究