behavior2025-vjepa2-vitg-130h-demo-embeddings

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/quastAI/behavior2025-vjepa2-vitg-130h-demo-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

BEHAVIOR-1K 2025挑战演示—V-JEPA 2 ViT-G 130h嵌入数据集是一个预计算的视频特征表示数据集，基于BEHAVIOR-1K 2025挑战演示数据集的一个自定义子集构建，包含约130小时的演示视频。该数据集使用来自Meta/FAIR的V-JEPA 2 ViT-G编码器从原始演示视频中提取视觉特征（嵌入），而非提供原始视频数据。其设计目的是为了加速下游机器学习和人工智能实验，特别是在具身人工智能、机器人学、模仿学习和模拟等领域，通过避免重复的视频解码和编码器前向传播过程，提升研究效率和可重复性。数据集适用于特征提取、机器人技术、视频分类和模仿学习等任务，输入为视频演示，输出为对应的密集特征向量。数据集在MIT许可证下发布，但用户需同时遵守原始BEHAVIOR-1K数据集和V-JEPA 2相关资源的许可条款。

The BEHAVIOR-1K 2025 Challenge Demos — V-JEPA 2 ViT-G 130h Embeddings dataset is a pre-computed video feature representation dataset. It is built on a custom subset of the BEHAVIOR-1K 2025 challenge demonstration dataset, containing approximately 130 hours of demonstration videos. The feature representations in this dataset are extracted from the raw demonstration videos using the V-JEPA 2 ViT-G encoder from Meta/FAIR, providing pre-encoded visual features (embeddings) rather than original video data. It is designed to facilitate downstream machine learning and AI experiments, particularly in embodied AI, robotics, imitation learning, and simulation, by eliminating repetitive and time-consuming video decoding and encoder forward propagation, thereby accelerating experimental workflows and enhancing research reproducibility. The dataset is suitable for tasks such as feature extraction, robotics, video classification, and imitation learning, with input modalities being video demonstrations and output being corresponding dense feature vectors. It is released under the MIT license, but users must comply with the licensing terms of the original BEHAVIOR-1K dataset and V-JEPA 2 resources.

创建时间：

2026-05-08

原始信息汇总

数据集概述

BEHAVIOR-1K 2025 Challenge Demos — V-JEPA 2 ViT-G 130h Embeddings 是一个预计算视频特征表示数据集，基于 BEHAVIOR-1K 2025 挑战演示数据集的一个约130小时子样本，使用 V-JEPA 2 ViT-G 编码器提取视频特征，旨在加速下游实验并提高可复现性。

基本信息

数据集名称：BEHAVIOR-1K 2025 Challenge Demos V-JEPA 2 ViT-G 130h Embeddings
许可证：MIT
语言：英语
任务类别：特征提取、机器人学、视频分类、模仿学习
标签：behavior-1k、behavior-2025、机器人学、具身AI、演示、视频、v-jepa、v-jepa-2、vjepa2、vit-g、预计算特征、嵌入
样本规模：10K < n < 100K

数据来源与处理

源数据集：behavior-1k/2025-challenge-demos
子集大小：约130小时演示视频
编码器：V-JEPA 2 ViT-G（来自 facebookresearch/vjepa2 仓库）
表示类型：预计算视频特征/嵌入
输入模态：视频演示
领域：具身AI、机器人学、模仿学习、仿真

数据集管道

有关数据集的更多信息及其创建过程，请访问：https://github.com/LOTO-H-JEPA/BEHAVIOR_challenge_dataset

许可信息

本数据集以 MIT 许可证发布。
源演示数据集 behavior-1k/2025-challenge-demos 采用 MIT 许可证。
V-JEPA 2 模型资源采用 Apache-2.0 许可证；本仓库不重新分发 V-JEPA 2 源代码或模型权重。
用户需同时遵守原始 BEHAVIOR-1K 数据集和 V-JEPA 2 资源的许可证条款。

引用说明

若使用本数据集，请引用 BEHAVIOR-1K 和 V-JEPA 2。若工作特别依赖 V-JEPA 2.1 风格的密集视频特征或与 V-JEPA 2.1 进行比较，请同时引用 V-JEPA 2.1 论文。

搜集汇总

数据集介绍

构建方式

该数据集基于BEHAVIOR-1K 2025挑战赛的演示数据构建，选取了约130小时的视频子集，采用V-JEPA 2 ViT-G编码器进行特征提取，生成预计算的视频嵌入表示。构建过程专注于高效提取视觉特征，避免重复的视频解码与编码器前向传播，旨在提升下游实验的复现性与计算效率。数据集的源材料来源于公开的演示数据集，并遵循MIT许可协议，不包含V-JEPA 2的原始代码或模型权重。

特点

该数据集的核心特色在于提供了一种轻量级、即用型的预计算特征表示，显著降低了机器人和模仿学习等领域的计算负担。嵌入向量由先进的V-JEPA 2 ViT-G模型提取，能够捕捉细粒度的时空视觉信息，适用于特征提取、视频分类、机器人演示分析等任务。数据集规模适中，涵盖约130小时的多领域演示内容，兼具领域专精度与通用性，便于快速集成到现有研究流程中。

使用方法

使用者可直接加载该数据集中的嵌入向量，无需重新处理原始视频帧或运行V-JEPA 2编码器，从而加速训练与评估流程。适用于下游任务包括机器人模仿学习、行为分类及特征基线对比。建议结合BEHAVIOR-1K和V-JEPA 2的相关论文进行引用，以确保方法论的溯源与合规性。数据集以标准化格式存储，支持主流深度学习框架的接口调用，便于嵌入到现有机器中学习流水线中。

背景与挑战

背景概述

BEHAVIOR-1K 2025 Challenge Demos V-JEPA 2 ViT-G 130h Embeddings数据集由斯坦福大学、Meta FAIR等机构联合创建，于2025年发布，旨在为具身人工智能与机器人模仿学习领域提供高效、可复现的视觉特征预编码资源。该数据集从包含1000种日常活动的BEHAVIOR-1K基准中精选130小时演示视频，利用V-JEPA 2自监督视频模型的ViT-G编码器提取稠密特征嵌入，显著加速了下游任务的实验流程。其核心创新在于将大规模仿真演示与先进视觉表征学习相结合，为机器人技能学习、视频分类等研究提供了标准化特征库，推动了具身AI领域从原始数据处理向高维特征共享的范式转变。

当前挑战

1) 领域问题挑战：BEHAVIOR-1K数据集旨在解决具身智能体在复杂仿真环境中执行多样化日常活动的长程任务规划与模仿学习问题，但原始视频数据体量庞大、解码开销高昂，成为大规模特征复用的瓶颈。2) 构建过程挑战：在130小时视频的特征提取中，需确保V-JEPA 2.1模型在长序列上保持时空一致性，避免帧间特征漂移；同时，子集采样策略需平衡任务类型覆盖率与计算资源限制，以生成具有代表性的预编码库；此外，遵循MIT与Apache-2.0许可协议的合规性要求，严格分离原始数据、模型权重与衍生特征，增加了数据管线的复杂性。

常用场景

经典使用场景

在具身智能与机器人学领域，BEHAVIOR-1K 2025挑战赛演示数据的V-JEPA 2 ViT-G 130小时嵌入数据集，为模仿学习与视频表征研究提供了预计算好的视觉特征。经典使用场景包括利用这些嵌入高效训练行为克隆模型，无需重复进行视频解码和编码器前向传播，从而加速从演示中学习机器人操作策略的流程。此外，该嵌入集合也常被用于视频分类任务，作为高维时空特征输入，支撑对复杂日常生活活动的细粒度识别与解析。

解决学术问题

该数据集有效解决了学术研究中因重复视频处理而导致的实验效率低下与可重复性难题。通过提供统一、可复用的视觉嵌入，它降低了大型视频数据在模仿学习、行为理解等研究中的计算门槛，使得研究者能够集中精力于算法设计与模型改进。其意义在于加速了从人类演示中学习通用技能的研发进程，推动了具身智能体在复杂、多步骤任务上的泛化能力研究，为建立可复现、可比较的评估基准奠定了坚实基础。

衍生相关工作

该数据集衍生了多项经典工作，主要集中在高效特征利用与行为理解方法的创新上。研究者基于此嵌入集合，探索了与自监督视频表征学习结合的轻量级下游模型，促进了V-JEPA 2系列架构在机器人领域的适配与优化。相关工作还包括对比不同视觉编码器（如ViT-G与CNN）在行为克隆中的表现，以及利用稠密特征（如V-JEPA 2.1）提升模仿学习的空间精度，推动了具身智能领域从视频到动作映射的理论与实践发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集