CompVis/owm-95

Name: CompVis/owm-95
Creator: CompVis
Published: 2026-04-13 15:51:43
License: 暂无描述

Hugging Face2026-04-13 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/CompVis/owm-95

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en license: cc-by-nc-sa-4.0 task_categories: - other --- # OWM Benchmark [![Project Page](https://img.shields.io/badge/Project-Page-blue)](https://compvis.github.io/myriad) [![Paper](https://img.shields.io/badge/arXiv-paper-b31b1b)](https://arxiv.org/abs/2604.09527) [![Paper](https://img.shields.io/badge/Huggingface-Papers-yellow)](https://huggingface.co/papers/2604.09527) [![GitHub](https://img.shields.io/badge/GitHub-Code-black)](https://github.com/CompVis/flow-poke-transformer) [![MYRIAD Weights](https://img.shields.io/badge/HuggingFace-Weights-orange)](https://huggingface.co/CompVis/myriad) [![MYRIAD-Physics Benchmark](https://img.shields.io/badge/Related-MYRIAD--physics-green)](https://huggingface.co/datasets/CompVis/myriad-physics) ## Abstract The OWM benchmark was proposed in the paper [Envisioning the Future, One Step at a Time](https://huggingface.co/papers/2604.09527) and used to evaluate the [MYRIAD](https://huggingface.co/CompVis/myriad/) model. OWM is a benchmark of 95 curated videos with motion annotations, with the distribution of motion constrained to enable the evaluation of probabilistic motion prediction methods. Videos are obtained from Pexels ([Pexels License](https://www.pexels.com/license/)). We manually annotate relevant objects and the type of motion observed. We use an off-the-shelf tracker to obtain motion trajectories and manually verify correctness. ## Project Page and Code - **Project Page**: https://compvis.github.io/myriad - **GitHub Repository**: https://github.com/CompVis/flow-poke-transformer ![OWM samples](https://compvis.github.io/myriad/static/images/paper-svg/owm-qualitative.svg) *OWM samples include complex real-world scenes with different motion types and complexities.* ## Usage We provide code to run the OWM evaluation in our [GitHub repository](https://github.com/CompVis/flow-poke-transformer). To run the evaluation, first download the data by running `hf download CompVis/owm-95 --repo-type dataset`. Then run the evaluation script via: ```shell python -m scripts.myriad_eval.openset_prediction --data-root path/to/data --ckpt-path path/to/checkpoint --dataset-name owm ``` ## License - Videos are sourced from Pexels and thus licensed under the [Pexels License](https://www.pexels.com/license/) - Metadata and motion annotations are provided under the [CC-BY-NC-SA-4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en) license ## Citation If you find our data or code useful, please cite our paper: ```bibtex @inproceedings{baumann2026envisioning, title={Envisioning the Future, One Step at a Time}, author={Baumann, Stefan Andreas and Wiese, Jannik and Martorella, Tommaso and Kalayeh, Mahdi M. and Ommer, Bjorn}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2026} } ```

提供机构：

CompVis

搜集汇总

数据集介绍

构建方式

OWM-95 数据集源自论文《Envisioning the Future, One Step at a Time》，旨在为概率性运动预测方法提供标准化评估基准。该数据集精心收集并筛选了95段来自Pexels平台的高质量视频，每段视频均包含丰富的真实世界场景。在构建过程中，研究者首先对视频中的关键对象及其呈现的运动类型进行了人工标注，随后利用现成的目标跟踪器提取运动轨迹，并对所有轨迹进行了人工校验，以确保运动注释的准确性和一致性。这种半自动化的构建策略，既借助了跟踪算法的高效性，又通过人工审核保障了数据质量，使得运动标注在复杂场景下依然具备高可靠性。

特点

OWM-95 数据集的核心特点在于其运动分布的约束性与场景的多样性。所有视频的运动类型和复杂度均经过精心设计，使得整体运动分布受到控制，从而能够有效评估概率性运动预测模型在多样化动态环境下的泛化能力。数据集涵盖了从简单平移到复杂非线性运动的各类实例，同时视频场景包含了自然风光、城市街景、人物活动等多种真实世界元素。这种兼具运动约束与场景丰富性的设计，使得OWM-95区别于传统的随机视频集合，为运动预测任务提供了更具挑战性和诊断性的测试平台。

使用方法

使用OWM-95数据集进行模型评估时，用户需先通过运行命令hf download CompVis/owm-95 --repo-type dataset从HuggingFace仓库下载完整数据。随后，在项目GitHub仓库中提供了专用的评估脚本，用户只需指定数据路径、模型检查点路径及数据集名称，即可执行开放式运动预测评估。具体命令为执行python -m scripts.myriad_eval.openset_prediction --data-root path/to/data --ckpt-path path/to/checkpoint --dataset-name owm。整个使用流程简洁高效，便于研究者快速复现论文中的实验或开展自定义模型的性能对比。

背景与挑战

背景概述

在计算机视觉领域，视频理解与未来帧预测一直是研究的前沿课题，尤其在动态场景的建模中，如何准确捕捉并预测物体的运动轨迹具有重要理论与应用价值。OWM-95数据集由Stefan Andreas Baumann、Jannik Wiese等研究人员于2026年在CVPR会议上提出，源自论文《Envisioning the Future, One Step at a Time》，旨在评估概率运动预测方法的能力。该数据集的核心研究问题聚焦于在真实世界中，对多样化的运动类型进行细粒度标注与预测，从而为视频预测模型提供标准化基准。作为MYRIAD模型评估的重要工具，OWM-95精选了95段带有运动注释的视频，其运动分布经过严格约束，这一设计为探索未来视觉预测的极限奠定了坚实基础。

当前挑战

OWM-95所解决的领域挑战在于视频运动预测中的概率建模难题，尤其是如何泛化到复杂真实场景下的多类型运动，如非刚性形变、遮挡与长程依赖，这些在传统确定性预测中难以有效处理。数据集构建过程亦面临巨大挑战：一方面，从Pexels平台海量视频中筛选出95段符合运动约束的代表性片段，需人工逐一判别运动类型与相关物体，工作量繁重；另一方面，依赖现有跟踪器提取运动轨迹后，还需人工核查与修正，确保标注的精确性与一致性，这种半自动的校验流程对人力与时间成本要求极高。

常用场景

经典使用场景

在计算机视觉与视频理解的前沿领域，运动预测始终是衡量模型对动态世界感知能力的关键试金石。OWM-95数据集应运而生，它精选了95段蕴含丰富运动标注的真实世界视频，尤其关注运动类型的多样性与轨迹复杂性的平衡。研究者常将其作为评估概率运动预测方法的黄金标准，通过解析视频中物体随时间演变的运动轨迹，检验模型在不确定性条件下对未来帧的刻画能力。该数据集的经典使用场景聚焦于开放世界设定下的运动预测任务，要求算法不仅能够捕捉单一运动的确定性路径，更要掌握多模态运动模式的概率分布，从而推动模型从静态识别向动态推演的跨越。

实际应用

在真实世界的复杂动态环境下，精准的运动预测是众多智能系统平稳运行的先决条件。OWM-95所支撑的模型，例如MYRIAD，在自动驾驶领域中能够预见行人或车辆的未来位姿概率分布，从而赋予决策系统提前规避风险的能力；在机器人交互场景中，它帮助机械臂预判目标物体的运动轨迹，实现更为顺滑的抓取与操控。此外，在视频监控与智能安防领域，该数据集训练出的模型可对异常运动模式进行早期预警，提升安全系统的事件响应效率。甚至在人机协作的工业场景中，这类概率运动预测技术能够理解人类动作的不确定性，使机器人的协作行为更加自然与安全。

衍生相关工作

OWM-95的诞生如同一颗投入静水的石子，在运动预测领域激起了层层涟漪。最直接的衍生工作是MYRIAD模型的提出，该模型以概率运动预测为核心理念，在OWM-95上进行了系统性评估，展现了开放世界视频预测的新范式。此外，研究者们围绕OWM-95探索了多种轨迹编码与解码架构，催生了诸如FlowPoke Transformer等创新网络设计，这些工作致力于如何更高效地捕捉长程运动依赖与多模态分布。同时，该数据集也启发了对运动类型与场景语义之间耦合关系的深入分析，进而衍生出更多细粒度的运动理解任务，推动了视频预测领域从单一技术突破向系统性方法论演进的进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集