Stanford MaskVIT Data
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Stanford_MaskVIT_Data
下载链接
链接失效反馈官方服务:
资源简介:
MaskViT在视频预测中优于先前的工作是参数有效的,
并且可以生成高分辨率视频(256×256)。此外,我们展示
由于我们在真实机器人上使用MaskViT进行迭代解码,推理速度加快(高达512×)的好处。我们的工作表明,我们可以通过利用
最小领域知识的掩蔽视觉建模框架。
MaskViT outperforms prior works in video prediction while being parameter-efficient, and it is capable of generating high-resolution videos (256×256). Furthermore, we demonstrate the advantage of up to 512× accelerated inference speed achieved by applying MaskViT for iterative decoding on a physical robot. Our work demonstrates that we can leverage masked visual modeling frameworks that require minimal domain knowledge.
提供机构:
OpenDataLab
创建时间:
2023-10-20
搜集汇总
数据集介绍

背景与挑战
背景概述
Stanford MaskVIT Data是一个由斯坦福大学发布的152.3GB大型数据集,主要用于视频预测研究,支持高分辨率视频生成(256×256)并优化推理速度。相关资源和论文可通过提供的链接获取。
以上内容由遇见数据集搜集并总结生成



