interleaved-umm-new

Hugging Face2025-12-20 更新2025-12-21 收录

下载链接：

https://huggingface.co/datasets/Caesarrr/interleaved-umm-new

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于空间推理任务的数据集生成框架，主要涉及相机视角预测和静态3D物体周围的排序任务。它生成多模态的思维链推理轨迹，旨在教导模型在轨道旋转过程中相机视角如何变化。框架支持两种空间推理任务：1) 相机视角预测：给定初始视角和旋转参数（角度+方向），预测新视角下的物体外观；2) 相机视角排序：给定参考帧和打乱的候选图像，重建相机视角的正确时间顺序。关键特性包括自动地面平面估计、基于PCA的几何校准、Oracle链生成、LLM思维链生成以及多后端支持。

创建时间：

2025-12-14

原始信息汇总

Interleaved Multimodal Reasoning Dataset 数据集概述

数据集简介

这是一个用于空间推理任务的数据集生成框架，涉及静态3D物体的相机视点预测和排序。该框架生成多模态思维链推理轨迹，用于教导模型在轨道旋转过程中相机视图如何变化。

核心任务

任务1：相机视点预测
- 给定初始视图和旋转参数（角度+方向），预测从新视点观察到的物体外观。
任务3：相机视图排序
- 给定一个参考帧和打乱顺序的候选图像，重建相机视图的正确时间顺序。

关键特性

自动地平面估计：基于PCA的几何校准，无需手动调整。
Oracle链生成：创建包含中间真实视图的逐步推理路径。
LLM思维链：生成模仿人类空间思维的自然语言推理。
多后端支持：支持OpenAI兼容的API和本地vLLM推理。
集群部署：支持通过Determined AI进行分布式GPU执行。

数据集生成与使用

快速开始

生成任务元数据
- 执行脚本 scripts/action_state/task1/run_gen_task1_v3.sh。
- 从CO3D序列中采样相机姿态对。
- 验证几何约束（角度范围、间隔）。
- 生成包含中间视图的Oracle链。
- 将JSONL文件保存至 data/questions/task1_metadata_v3/。
生成思维链推理
- 选项A（使用OpenAI兼容API）： bash python scripts/run_llm_cot.py --input_file data/questions/task1_metadata_v3/train/train_1.jsonl --output_file data/questions/task1_v3/train/train_1.jsonl --image_root /path/to/project/root --model gpt-4o
- 选项B（使用本地vLLM服务器）： bash python scripts/run_llm_cot_vllm.py --input_file data/questions/task1_metadata_v3/train/train_1.jsonl --output_file data/questions/task1_v3/train/train_1.jsonl --image_root /path/to/project/root --model /path/to/Qwen3-VL-32B-Instruct --tp_size 2 --gpu_memory_utilization 0.9

任务生成参数

任务1（相机视点预测）：
- MIN_ANGLE=60.0：最小旋转角度（度）。
- MAX_ANGLE=125.0：最大旋转角度（度）。
- MIN_INTERVAL=25.0：选项之间的最小角度间隔。
- NUM_SAMPLES=3：每个序列的样本数。
任务3（相机视图排序）：
- MIN_INTERVAL=15.0：每步旋转的最小角度。
- MAX_INTERVAL=40.0：每步旋转的最大角度。
- MAX_ANGLE=170.0：轨迹总跨度的最大角度。

数据预处理

数据过滤：在生成任务前，使用 scripts/filter/filter_v4.py 对序列进行质量过滤。
可视化：使用 scripts/visualize_traj_pca.py 可视化相机轨迹。

技术细节

生成流程

几何管道：
1. CO3DDataLoader 加载帧标注。
2. get_sequence_geometry_pca() 通过PCA估计地平面。
3. get_relative_yaw() 计算角度差。
4. decompose_angle() 将旋转分解为多个步骤。
CoT生成管道：
1. CoTGenerator 接收Oracle链。
2. 为每个步骤构建上下文信息。
3. 使用“小抄”（目标视图+物理提示）调用LLM。
4. LLM生成看似推导出动作的推理。
5. 组合成最终的 <think>...</think> 轨迹。

关键概念

Oracle链：包含中间视图的真实推理路径。
小抄机制：LLM能看到目标，但必须写出推导过程。
视差规则：“相机向右移动 → 视图向左偏移”。
鸟瞰图：旋转方向从俯视角度定义。

依赖与配置

前提条件

Python 3.12
CUDA 11.8+（用于GPU支持）
访问CO3D数据集
（可选）Determined AI集群用于分布式训练

环境变量

变量	描述	示例
`BASE_URL`	OpenAI兼容API端点	`https://api.openai.com/v1/chat/completions`
`API_KEY`	API认证密钥	`sk-...`
`QWEN_API_KEY`	Qwen API密钥（可选）	`sk-...`
`QWEN_BASE_URL`	Qwen API端点（可选）	`https://dashscope.aliyuncs.com/compatible-mode/v1`

项目结构

interleaved-umm/ ├── src/ # 源代码 │ ├── action_state/ # 任务生成逻辑 │ ├── llm_generation/ # 思维链生成 │ └── utils/ # 工具函数 ├── scripts/ # 运行脚本 │ ├── action_state/ # 任务生成运行器 │ ├── run_llm_cot.py # LLM CoT生成（API） │ ├── run_llm_cot_vllm.py # LLM CoT生成（vLLM） │ └── ... ├── deploy/ # 部署配置 ├── configs/ # 配置文件 ├── data/ # 生成的数据集 └── ...

故障排除

问题：图像 FileNotFoundError
- 解决方案：检查 IMAGE_PREFIX 和 image_root 路径是否与实际路径匹配。
问题：PCA中的 LinAlgError
- 解决方案：序列帧数过少或几何退化。过滤器会捕获这些情况。
问题：vLLM OOM错误
- 解决方案：降低 gpu_memory_utilization 或 limit_mm_per_prompt。
问题：未生成有效样本
- 解决方案：放宽 MIN_ANGLE、MAX_ANGLE 或 MIN_INTERVAL 约束。

引用

如果使用此数据集或代码库，请引用： bibtex @misc{interleaved-umm, title={Interleaved Multimodal Reasoning Dataset}, author={Your Name}, year={2024} }

搜集汇总

数据集介绍

构建方式

在三维空间推理领域，Interleaved Multimodal Reasoning Dataset 的构建过程体现了严谨的几何与计算逻辑。该框架以 CO3D 数据集为基础，通过自动化的几何校准流程生成任务样本。具体而言，系统首先利用主成分分析技术对静态三维物体的相机轨迹进行地面平面估计，从而消除人工调参的需求。随后，依据预设的旋转角度与方向参数，从连续帧中采样相机姿态对，并验证其几何约束条件，最终生成包含中间真实视图的“预言链”作为基础元数据。

特点

该数据集的核心特征在于其交织的多模态推理链条设计。它不仅提供了相机视角预测与排序两类经典空间推理任务，更关键的是为每个样本生成了逐步推理的轨迹，其中穿插着自然语言描述的思维链。这些思维链模拟了人类在空间旋转过程中的认知步骤，将视觉变化与语言解释紧密结合。此外，数据集支持通过开放式API或本地vLLM推理后端生成推理内容，并具备面向分布式GPU集群部署的扩展能力，为复杂推理模型的训练与评估提供了高质量、结构化的多模态基础。

使用方法

使用本数据集时，研究者可遵循其模块化的生成与处理流程。首先，通过运行特定脚本从CO3D数据中过滤序列并生成任务元数据。接着，利用集成的大型语言模型生成与任务对应的链式思维推理内容，用户可根据计算资源选择云端API或本地vLLM服务。生成的数据集可直接用于训练能够进行多步空间推理的视觉-语言模型。项目提供的可视化工具还能帮助研究者直观审视相机轨迹与几何关系，确保数据理解与模型调试过程的顺利进行。

背景与挑战

背景概述

Interleaved Multimodal Reasoning Dataset（Interleaved-umm-new）是2024年发布的一个专注于三维空间推理任务的数据集生成框架。该框架由研究团队构建，旨在解决计算机视觉与多模态人工智能领域中，模型对静态三维物体进行轨道旋转时相机视角变化的推理难题。其核心研究问题聚焦于如何让模型理解并预测相机在三维空间中的运动所引发的视图变化，从而提升模型的空间认知与推理能力。该数据集通过生成包含逐步推理链的多模态数据，为训练模型模拟人类的空间思维过程提供了重要资源，对推动具身智能、机器人视觉规划以及三维场景理解等领域的发展具有显著影响力。

当前挑战

该数据集旨在解决三维空间推理中相机视角预测与排序的复杂问题，其核心挑战在于如何让模型从二维图像序列中准确理解三维几何变换与视角间的对应关系。构建过程中的挑战主要包括：首先，从真实世界数据集（如CO3D）中自动估计地平面并校准几何关系，需克服点云数据噪声与视角缺失带来的计算不稳定性；其次，生成高质量、符合物理规律的链式推理轨迹，要求合成数据在保持几何一致性的同时，具备自然语言描述的逻辑连贯性；此外，多模态数据的对齐与大规模生成对计算资源与算法效率提出了较高要求。

常用场景

经典使用场景

在计算机视觉与多模态推理领域，Interleaved Multimodal Reasoning Dataset 为空间推理任务提供了标准化的评估基准。该数据集的核心应用场景聚焦于相机视角预测与排序任务，通过模拟静态三维物体在轨道旋转过程中的视角变化，生成包含多模态思维链的推理轨迹。研究者利用该数据集训练模型理解相机运动与物体外观之间的几何关系，从而评估模型在复杂空间变换中的推理能力。

实际应用

在实际应用层面，该数据集支撑了机器人视觉导航、增强现实物体交互以及自动驾驶场景理解等关键技术。例如，在机器人操作任务中，模型需要预测抓取物体时视角变化带来的外观差异；在AR系统中，虚拟物体必须根据用户移动实时调整渲染视角。数据集生成的规则化相机轨迹与物理约束，为这些应用提供了可泛化的空间推理训练数据，提升了系统在真实世界中的适应性与鲁棒性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态思维链生成与几何推理模型架构创新。例如，研究者基于其标注范式开发了端到端的视角变换预测网络，将语言推理与视觉特征融合；另有工作利用数据集的序列化视角排序任务，提出了新型的时空注意力机制。这些工作不仅扩展了数据集的用途，还催生了视觉语言模型在三维场景理解、连续状态推理等子领域的算法突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集