mvp-lab/LLaVA-OneVision-2-Data

Name: mvp-lab/LLaVA-OneVision-2-Data
Creator: mvp-lab
Published: 2026-05-06 11:27:31
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/mvp-lab/LLaVA-OneVision-2-Data

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVA-OneVision-2-Data数据集用于训练LLaVA-OneVision-2多模态模型家族，涵盖中训练阶段使用的大规模视频和空间推理语料库。数据集包含多个子集：30秒、60秒、180秒和超过10分钟的视频片段及其字幕，以及空间推理数据（如refcoco、visual genome、pointing等）。此外，数据集还提供了用于模式检查的预览配置。

The LLaVA-OneVision-2-Data dataset is used for training the LLaVA-OneVision-2 multimodal model family, covering large-scale video and spatial reasoning corpora used in mid-training. The dataset consists of several subsets: video clips of varying lengths (30s, 60s, 180s, and >10min) with captions, and spatial reasoning data (e.g., refcoco, visual genome, pointing, etc.). Additionally, the dataset provides preview configurations for schema inspection.

提供机构：

mvp-lab

搜集汇总

数据集介绍

构建方式

LLaVA-OneVision-2-Data 数据集是为训练 LLaVA-OneVision-2 多模态模型家族而构建的大规模视频与空间推理语料库。其构建策略涵盖两大核心模块：视频部分采用 WebDataset 格式，包含约 60 秒时长的视频片段，总计 10,809 个分片（shard），并辅以对应不同时长（30秒、60秒、180秒、超10分钟）的 JSONL 格式字幕文件；空间推理部分则集成 refcoco、visual genome、指向、3D 等多种任务数据，共 84 个分片。此外，数据集提供 CSV 格式映射文件，将每个视频片段的路径关联至其 YouTube 来源及起止时间窗口，确保数据溯源与可复现性。

特点

该数据集具有鲜明的多模态与多尺度特性。首先，视频数据覆盖从 30 秒到超过 10 分钟的多样化时间跨度，适配不同粒度的时间理解需求。其次，空间推理部分融合了 refcoco 指代理解、visual genome 场景图、指向与 3D 空间关系等多种任务，极大丰富模型对空间信息的认知能力。预览配置（viewer configs）提供小规模 Parquet 样本，便于在 Hugging Face 平台上直接检视数据结构与内容，但训练需依赖完整的分片文件，体现了兼顾可用性与规模的精巧设计。

使用方法

使用 LLaVA-OneVision-2-Data 数据集时，建议直接利用 WebDataset 格式的完整分片文件进行模型训练。视频数据可通过 `mid_training_video/` 目录下的分片与对应 JSONL 字幕文件配合使用；空间推理数据则取自 `spatial/` 目录。此外，CSV 映射文件可用于追踪视频片段的具体来源。预览配置仅用于数据格式与样本的快速了解，不宜作为训练数据源。用户可借助 Hugging Face Datasets 库加载各配置，并参考 LLaVA-OneVision-2 模型的相关训练代码实现高效集成。

背景与挑战

背景概述

LLaVA-OneVision-2-Data数据集由多模态人工智能领域的领先研究团队构建，于2024年发布，旨在为新一代多模态大模型LLaVA-OneVision-2提供训练支撑。该数据集面向视频理解与空间推理两大核心研究问题，整合了大规模视频片段及其精细字幕、空间定位与场景理解数据，涵盖从短时30秒到长时10分钟以上的多样化时间尺度。其影响力体现在为多模态模型提供兼具时序动态推理与空间几何理解的训练语料，推动了视频问答、视觉对话与场景交互等任务的能力边界。

当前挑战

该数据集所解决的领域挑战包括：视频与图像理解中时空信息耦合的困难，尤其是长视频的上下文建模与跨帧事件推理；空间推理任务中物体定位、关系理解与3D场景解析的精度不足。构建过程中面临的挑战有：从YouTube等开放平台采集海量视频并进行版权合规性与内容清洗，确保数据质量；对不同时长片段生成高质量自然语言描述，需要平衡语义丰富度与标注一致性；将空间数据（如RefCOCO、Visual Genome）与视频数据统一格式集成，维护跨模态训练数据的高效存取与可扩展性。

常用场景

经典使用场景

LLaVA-OneVision-2-Data数据集的核心用途在于训练多模态大语言模型，使之具备跨图像、视频和文本的统一理解与推理能力。研究者可借助该数据集中覆盖30秒至超过10分钟的多尺度视频片段及其对应的自然语言描述，对模型进行中期训练（mid-training），从而提升其对时序动态信息的捕捉能力。同时，数据集中的空间推理子集整合了指代表达、视觉基因组、三维场景理解等多种任务，为模型注入精细的视觉定位与空间关系推理能力。这种从视频时序理解到图像空间推理的多维数据设计，使得LLaVA-OneVision-2-Data成为构建新一代通用多模态助手的基准训练资源。

实际应用

在实际应用中，基于LLaVA-OneVision-2-Data训练的多模态模型可部署于智能视频监控、自动驾驶场景理解、教育辅助与内容生成等关键领域。例如，模型能够对长达数十分钟的安防监控视频进行精准的事件描述与异常检测，或在自动驾驶中理解复杂的空间关系以辅助路径规划。在教育场景中，模型可为教学视频生成结构化摘要，或通过指代理解为学习者提供视觉元素的即时解释。此外，该数据集的空间推理能力还可服务于机器人交互，使机器人在未知环境中根据自然语言指令完成目标定位与操作，极大地拓展了多模态人工智能在真实世界中的可用性边界。

衍生相关工作

LLaVA-OneVision-2-Data作为LLaVA系列模型迭代的核心数据支撑，衍生了一系列重要的学术工作。该数据集直接应用于LLaVA-OneVision-2多模态模型族的中期训练，使得模型在视频问答、空间推理等多项基准测试中达到领先水平。其视频描述与空间子集还催生了关于长视频理解中时序压缩与记忆机制的研究，以及基于指代表达的跨图像-视频联合推理方法。此外，研究者依托该数据集的空间部分，探索了将二维视觉定位推广至三维场景的新范式，代表性工作包括将指向任务与深度估计相结合的三维定位框架。这些衍生工作不仅验证了数据集设计的有效性，也持续推动多模态人工智能从静态图像理解向动态、交互式场景感知的纵深演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集