Chain-of-Thought (CoT) grounding dataset
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
https://amap-ml.github.io/UniVG-R1-page/
下载链接
链接失效反馈官方服务:
资源简介:
CoT数据集是由清华大学深圳国际研究生院和阿里巴巴集团的研究人员创建的,包含90,000个样本,每个样本都标注了详细的推理链。该数据集旨在指导模型通过监督微调沿着正确的推理路径进行,从而提高其推理能力。数据集的创建过程包括使用Qwen-VL-MAX模型生成推理链,并经过人工验证确保准确性。CoT数据集的应用领域是通用视觉定位任务,旨在解决现实世界场景中涉及复杂和多模态上下文的视觉定位问题。
The CoT dataset was created by researchers from Tsinghua Shenzhen International Graduate School and Alibaba Group, consisting of 90,000 samples each annotated with a detailed reasoning chain. This dataset is designed to guide models to follow correct reasoning paths through supervised fine-tuning, thereby enhancing their reasoning capabilities. The dataset construction process includes generating reasoning chains using the Qwen-VL-MAX model, followed by manual verification to ensure accuracy. The CoT dataset targets general visual grounding tasks, aiming to address visual grounding problems involving complex and multimodal contexts in real-world scenarios.
提供机构:
清华大学深圳国际研究生院,阿里巴巴集团
创建时间:
2025-05-20
搜集汇总
数据集介绍

构建方式
在视觉定位领域,传统方法通常局限于单一图像场景下的显式简单指令。为突破这一局限,研究人员构建了Chain-of-Thought (CoT) grounding dataset,该数据集通过先进的多模态大语言模型Qwen-VL-MAX生成详细的推理链标注。具体流程包含三个关键步骤:首先从MGrounding-630k数据集中随机采样,随后采用标准化的<think>推理过程</think><answer>坐标</answer>格式生成三条候选推理链,最终通过模型自评估筛选最优解并辅以10%样本的人工验证,确保99.87%的标注准确率。这种构建方法有效融合了自动化标注效率与人工校验精度,为模型提供了结构化的认知轨迹。
特点
该数据集的核心价值在于其独特的推理链标注体系,每条样本不仅包含目标坐标,更完整记录了从视觉解析到空间定位的思维过程。数据覆盖多图像场景下的10类复杂任务,包括静态差异分析、跨图像共性识别等功能性推理,且通过混合RefCOCO系列数据增强了基础定位能力。特别值得注意的是,数据分布经过精心设计,既包含直观的显式指令样本,也涵盖需要多模态推理的隐式查询,这种梯度难度设置显著提升了模型的泛化能力。90k样本量的精确定制在保证质量的同时,仅需同类工作8.3%的数据量即可达到更优效果。
使用方法
该数据集采用两阶段训练范式:第一阶段通过监督微调使模型掌握基础推理模式,采用交叉熵损失优化<think>标签内的逻辑连贯性;第二阶段引入基于IoU验证的强化学习,利用GRPO算法对8条并行生成的推理链进行优势排序,通过格式奖励(rformat)和精度奖励(racc)的复合激励,引导模型自主选择最优推理路径。实际应用中,用户只需输入多图像组合及自然语言指令,模型即能输出带有完整推理过程的定位结果,其<think>模块可解释性强,特别适用于需要可追溯决策过程的医疗诊断、自动驾驶等高风险场景。
背景与挑战
背景概述
Chain-of-Thought (CoT) grounding dataset由清华大学深圳国际研究生院和阿里巴巴集团的研究团队于2025年提出,旨在解决传统视觉定位方法在处理多图像场景和复杂指令时的局限性。该数据集作为UniVG-R1模型的核心训练基础,通过标注详细的推理链(CoT),引导模型在多模态语境中实现高级推理。其构建依托于MGrounding-630k数据集样本,并采用Qwen-VL-MAX模型生成高质量推理注释,经人工验证后最终形成包含76k样本的基准数据集。这一创新为视觉定位领域引入了结构化推理范式,显著提升了模型在MIG-Bench等复杂基准上的性能表现。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需突破传统单图像定位的局限,解决多图像场景下隐含指令理解、跨图像关联推理等核心难题,如处理'Image-2中哪件家具能处理Image-1物体'这类需要多模态推理的复杂查询;在构建过程中,存在冷启动数据生成的质量控制难题,需通过三重CoT生成与筛选机制确保推理链的准确性,同时应对强化学习训练中出现的难度偏差问题——随着训练推进,简单样本占比上升导致模型对困难样本学习不足,为此研究者创新性提出动态难度感知权重调整策略以优化训练效率。
常用场景
经典使用场景
Chain-of-Thought (CoT) grounding dataset在视觉定位领域被广泛应用于多图像场景下的复杂指令理解任务。该数据集通过标注详细的推理链,引导模型在跨模态语境中建立高级推理能力,尤其适用于需要同时处理多幅图像并解析隐含语义的视觉定位场景,如“在Image-2中找出与Image-1物体功能匹配的家具”。
实际应用
在实际应用中,CoT grounding dataset支撑的模型可应用于智能家居交互、自动驾驶场景理解等需要多源视觉信息联合推理的场景。例如,在家庭服务机器人场景中,模型能根据“找到能清理桌面的工具”这类抽象指令,通过跨图像推理定位到抹布或吸尘器。
衍生相关工作
该数据集催生了UniVG-R1等突破性工作,其提出的两阶段训练框架(监督微调+强化学习)已成为多模态推理任务的基准方法。后续研究如GRPO-Difficulty进一步优化了推理链选择策略,而LISA-Grounding等衍生数据集则扩展了其在视频推理领域的应用。
以上内容由遇见数据集搜集并总结生成



