4DThinker-Training-Data

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/jankin123/4DThinker-Training-Data

下载链接

链接失效反馈

官方服务：

资源简介：

4DThinker训练数据集是一个专注于动态空间推理和视频理解的数据集，作为4DThinker框架的一部分，旨在通过动态潜在心理意象使视觉语言模型具备“4D思维”能力。数据集基于SpatialVID和DSR_Suite-Data构建，包含两个主要部分：DIFT训练数据和4DRL训练数据。DIFT数据约38K样本，用于监督训练，包含带有心理意象步骤的思维链推理；4DRL数据约37K样本，用于基于结果的强化学习。数据以JSONL格式存储，包含文本输入输出、图像输入输出等字段。数据集还提供了视频帧和掩码覆盖图等处理后的视觉数据。数据集采用Apache License 2.0许可。

创建时间：

2026-05-07

原始信息汇总

好的，这是对该数据集的总结：

数据集概述：4DThinker Training Data

该数据集是 4DThinker 框架的训练数据，旨在提升视觉语言模型（VLM）的动态空间推理能力。

数据来源

该数据集基于以下两个公开数据集构建：

数据结构与内容

数据集主要包含两个部分：

DIFT 数据 (dift_data.jsonl)：约 38,000 个样本。用于监督训练，每条数据包含问题、带有思维链（CoT）的答案以及对应的视频帧和动态遮罩图像。
4DRL 数据 (4drl_data_filtered.jsonl)：约 37,000 个样本。用于强化学习，每条数据为问答对（不含思维链），包含问题、选项、正确答案和视频路径。

此外，processed_data/ 目录下存放了视频帧及目标的静态/动态遮罩叠加图。

数据格式

DIFT 数据：每条数据为 JSON 对象，包含：
- text_input: 关于相机或物体运动的多选题。
- text_output: 包含 <output_image> 占位符的思维链推理过程和答案。
- image_input: 视频帧列表（1 FPS 采样）。
- image_output: 与思维链占位符对应的动态遮罩图像列表。
4DRL 数据：每条数据为 JSON 对象，包含 Type、Question、选项 (A, B, C, D)、正确答案 (Correct) 以及视频路径 (video_path)。

数据统计

数据集	样本数量	用途
DIFT	~38,000	基于图像思维链的监督训练
4DRL	~37,000	基于结果的强化学习

许可证

Apache License 2.0

搜集汇总

数据集介绍

构建方式

4DThinker-Training-Data数据集专为动态空间推理任务设计，旨在赋能视觉语言模型通过动态潜在心理意象进行“四维思考”。该数据集基于SpatialVID与DSR_Suite-Data两大公开资源构建，经过精细化筛选与结构化组织，最终形成双轨数据体系。其中，DIFT数据包含约3.8万条样本，每条样本以JSON对象形式呈现，将结构化链式推理与心理意象交错融合，输入为关于相机或物体运动的多选题，输出则嵌入<output_image>占位符以模拟推理过程中的心理图像；4DRL数据包含约3.7万条样本，为纯问答格式，去除了链式推理过程，专为强化学习中的结果奖励机制设计。所有视频帧以1 FPS频率提取，并配套生成静态与动态物体的遮罩覆盖图像，存储于按视频ID组织的目录结构中。

特点

该数据集的核心特色在于其创新性的双轨设计，兼顾监督学习与强化学习两种范式。DIFT数据通过显式引入心理意象占位符，使得模型在推理过程中能够动态生成并利用视觉表征，从而突破传统语言模型对文本符号的依赖，实现了对四维空间关系的深度理解。4DRL数据则通过简洁的问答结构，为强化学习提供了清晰的结果导向奖励信号，便于模型在复杂时空场景中自主探索决策策略。此外，数据处理阶段已对视频帧进行统一采样，并提取了精细化的静态与动态物体遮罩，这为模型区分时变与不变特征、捕捉运动轨迹提供了高质量的视觉先验。整体数据规模约7.5万条，覆盖丰富的运动模式与视角变化，具有较强的泛化潜力。

使用方法

使用者可通过加载数据目录下的两个JSONL文件分别获取DIFT与4DRL数据。对于DIFT数据，需配合processed_data文件夹中的视频帧及遮罩图像共同使用。模型训练时，可将JSONL中image_input列表对应的帧图像作为视觉上下文输入，各<output_image>占位符则对应image_output列表中的遮罩图像，用于指导模型在链式推理中生成相应的心理意象。4DRL数据则更为直接，每条样本包含问题文本、四个选项及正确答案，配合原始视频文件路径即可构建强化学习环境。推荐利用Hugging Face的datasets库进行高效加载与批量处理，也可按需将JSONL转换为其他常见格式（如Parquet或Arrow）以适配不同训练框架。数据采用Apache 2.0许可，便于学术与商业场景中的合法使用。

背景与挑战

背景概述

4DThinker-Training-Data数据集由腾讯AI实验室等机构的研究团队于近期创建，旨在推动视觉语言模型（VLM）在动态空间推理领域的发展。该数据集的核心研究问题是如何赋予模型“四维思考”能力，即通过动态潜在心理意象理解视频中的时空演变与物体运动。基于SpatialVID与DSR_Suite-Data等基础资源，4DThinker-Training-Data整合了约7.5万条训练样本，涵盖带有结构化思维链的监督学习数据与用于强化学习的问答数据，为提升VLM在物理世界交互中的认知层次提供了关键支撑，对视频理解与机器人导航等前沿领域具有重要影响力。

当前挑战

数据集所解决的领域问题在于，传统视觉模型大多局限于静态图像分析或简单时序关联，难以应对动态场景中物体运动方向、相对位置变化等复杂推理任务。在构建过程中，研究团队面临双重挑战：一是需要从视频中精确提取时空一致的物体掩膜与运动轨迹，确保每一帧的标注信息在时间轴上保持连续与语义准确；二是为生成高质量的思维链数据，设计者必须巧妙地将心理意象步骤以图像占位符形式嵌入文本推理中，以平衡模型对视觉与语言线索的联合学习能力，避免过拟合或概念混淆。

常用场景

经典使用场景

4DThinker-Training-Data专为训练具备四维时空推理能力的视觉语言模型而精心构建。该数据集将视频帧序列与物体遮罩叠加图有机融合，通过结构化思维链形式引导模型在推理过程中动态生成潜在心理意象，从而实现对摄像机运动、物体运动轨迹及空间关系变化的精准感知。其经典用法聚焦于多选问答任务，模型需基于连续帧视觉上下文，逐步推演时间维度上的空间变换，最终输出正确答案。这种训练范式使模型超越静态图像理解，迈向动态场景的深度认知。

实际应用

在实际应用层面，该数据集训练出的模型可广泛赋能智能视频监控、自动驾驶决策、机器人交互操控等需要实时空间理解的关键领域。例如，在自动驾驶场景中，模型能基于多帧图像推演周边车辆的运动趋势与相对方位变化，从而预判碰撞风险；在智能监空系统中，它能准确解析目标物体的动态轨迹与遮挡关系，提升异常行为检测的鲁棒性。此外，该数据集还可用于增强现实系统，促使设备更自然地理解用户与移动物体的空间互动。

衍生相关工作

基于4DThinker-Training-Data，研究者已衍生出多项突破性工作。一方面，其DIFT训练数据将心理意象机制融入思维链模板，开创了可视化解耦推理路径的新范式，启发了后续像<think>标记与空间掩码对齐的跨模态学习方法；另一方面，4DRL数据强化学习分支验证了基于结果奖励的动态推理优化策略，为构建无需显式思维链的隐式时空模型提供了重要参考。这些衍生工作共同丰富了对四维认知机制的探索，持续推动着动态空间推理研究的前沿边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集