PhysEdit/STAGBench_V1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/PhysEdit/STAGBench_V1
下载链接
链接失效反馈官方服务:
资源简介:
STAGBench V1是一个包含56个打包源图像和官方I2V(图像到视频)提示表面的数据集,用于STAGBench V1 Track A和Track B场景。数据集不包括生成的视频。内容包含源图像目录、元数据文件(如源图像清单、场景清单、校验和列表等)以及一次性I2V提示包。整理策略包括保留规范源文件名,排除特定文件,并使用规范的场景ID。提示包范围涵盖25个Track A v5场景和31个官方等权Track B V1场景。数据集适用于图像到视频生成任务的基准测试和研究。
STAGBench V1 is an HF/zip-ready package containing 56 packaged source images and the official I2V (Image-to-Video) prompt surface for STAGBench V1 Track A and Track B scenes. It does not include generated videos. The dataset includes source images directory, metadata files (such as source image manifest, scene manifest, checksum list, etc.), and a one-shot I2V prompt pack. The curation policy involves keeping canonical source filenames unchanged, excluding specific files, and using canonical scene IDs. The prompt pack scope covers 25 Track A v5 scenes and 31 official equal-weight Track B V1 scenes. The dataset is intended for benchmarking and research in image-to-video generation tasks.
提供机构:
PhysEdit
搜集汇总
数据集介绍

构建方式
STAGBench_V1数据集精心整合了56张经过严谨筛选的源图像及官方图像到视频(I2V)提示词表。其构建过程严格遵循既定规范:保留用户原始文件名,剔除.DS_Store等非必要文件及重复内容,并利用SHA-256校验确保数据完整性。数据集源图像与模型交互的I2V提示词表面保持冻结,为下游基准测试提供稳定的输入。扩展基准使用规范的A16至A25场景标识,旧版CAL-*名称仅作为元数据中的遗留别名保留,而纸飞机与撕胶带场景被明确归入Track B源图像。
特点
该数据集最鲜明的特点在于其精密的双轨场景架构,涵盖25个Track A v5场景与31个Track B V1场景,每个模型需生成560个视频片段,严格遵循每场景10个视频的发布策略。官方评分提示词为仅含正向指令的I2V提示,视觉线索虽嵌入提示但模型无需机械遵循。Track B包含经所有者批准的变体与状态指示,而无效或物理不可行的生成结果被定义为OOD_invalid分布质量,而非被过滤。
使用方法
使用时,数据集以HuggingFace格式分发,通过huggingface-cli工具便捷上传与验证。用户需首先运行shasum校验源图像完整性,再以json.tool检查元数据包与提示词JSON的格式。核心交互通过加载prompts/i2v/stagbench_v1.json文件实现,该文件为官方Track A与Track B场景提供统一的单次I2V提示。数据包同时包含source_image_manifest.jsonl和scene_manifest.jsonl两种清单文件,分别满足图像级别与场景级别的审查需求。
背景与挑战
背景概述
STAGBench V1于2026年4月由PhysEdit团队构建发布,旨在为图像到视频(I2V)生成领域提供一个系统化的场景级基准测试框架。该数据集核心聚焦于评估模型在物理编辑与场景一致性任务中的表现,通过56张精心策展的源图像和56个官方提示(覆盖Track A与Track B场景),推动生成视频从视觉质量向物理合理性的评估跃迁。其影响力体现在填补了现有基准对场景物理规则遵循度评估的空白,为I2V模型的分布外检测和物理约束遵从性研究奠定了标准化测试基础。通过引入包括纸质飞机、胶带剥离等具有物理挑战性的场景,STAGBench V1为生成式视频模型的鲁棒性评估提供了关键参考。
当前挑战
STAGBench V1所解决的领域核心挑战在于评估I2V模型对物理世界规则的理解与复现能力,特别是处理具有明确物理约束的场景(如不可逆过程、运动合理性)时模型生成结果的分布外检测。数据集构建本身面临多重挑战:首先,场景策展需跨越不同物理复杂性,确保源图像兼具视觉多样性与物理不可行性边界;其次,提示设计需平衡视觉线索的保留与模型解读自主权,避免隐式指导生成方向;最后,官方摒弃了负向提示和旧版场景ID(如CAL-*),要求构建者严格冻结源图像与提示表面,同时保留废弃文件元数据以保证可复现性,这对策展的精确性和版本控制提出了极高要求。
常用场景
经典使用场景
STAGBench_V1数据集专为物理感知的图像到视频(I2V)生成任务而设计,其核心使用场景在于评估和推动视频生成模型对物理世界规则的理解与遵循能力。该数据集精心构建了56张源图像与对应的单次提示词,涵盖了25个Track A场景和31个Track B场景,旨在要求模型从静态图像出发,生成符合真实物理运动规律(如重力、碰撞、形变)的连续视频序列。研究者常利用该数据集测试模型在模拟日常物理现象——例如纸张飘落、胶带剥离或物体动态交互——时的表现,从而量化模型在「物理合理性」维度的生成质量。作为一个高门槛的基准测试,STAGBench_V1迫使模型不能仅依赖于视觉纹理或图像合成,而必须深度推理场景中的因果逻辑与时空一致性,从而填补了现有视频生成数据集在物理约束评估方面的空白。
解决学术问题
该数据集旨在解决学术界长期面临的「视频生成模型缺乏物理常识」这一关键瓶颈。尽管现有扩散模型和Transformer架构在视觉保真度上取得了显著进步,但生成的动态内容往往违背基本物理定律,表现为物体穿越、异常悬浮或运动轨迹不自然。STAGBench_V1通过引入物理合规性评分体系(包括对不合法/不可读/物理不可能结果的OOD_invalid分类),首次系统性地定义了视频生成中的物理异常边界。其意义在于:它不仅为I2V模型提供了一个可复现、可量化的评估框架,更推动研究将「物理先验知识」显式注入生成管道——例如引导模型学习牛顿力学约束、材料特性与接触动力学。进而,这一基准激励了学界从单纯追求视觉美感转向关注「具身智能」中不可或缺的物理推理能力,对提升机器人模拟、自动驾驶预测等下游任务的可靠性具有深远影响。
衍生相关工作
STAGBench_V1的发布催生了围绕物理感知视频生成的一系列衍生研究。其中最经典的路线包括物理约束扩散模型的改进,例如在Latent Video Diffusion架构中嵌入显式运动先验或动力学损失函数,以对齐基准中的物理合规性要求。此外,研究者借鉴提示词解耦策略,开发出能自动识别场景中关键物理实体与运动模式的「物理语义解析器」,再将其注入跨注意力模块。另一方向则聚焦于评估体系本身,衍生出基于对比学习或视觉推理网络的新式评分器,以替代原基准中简单的OOD检测。在学术社区,该数据集已成为检验模型「物理常识」的标准擂台,推动了如PhysDiff、VidPhysics等专门架构的涌现,并激励了将神经符号推理与生成模型融合的跨学科尝试,最终加速了从「视觉逼真」到「物理可信」的范式跨越。
以上内容由遇见数据集搜集并总结生成



