HumanRef-CoT
收藏arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://rexthinker.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
HumanRef-CoT是一个大规模的CoT式对象引用数据集,包含90,824个样本,由GPT-4o在HumanRef数据集上生成。每个样本都被注释为一个结构化的推理轨迹,遵循规划、行动和总结的范式,使得模型能够学习对对象候选者进行分解的、可解释的推理。该数据集支持Rex-Thinker模型的训练,该模型通过冷启动监督微调阶段和基于GRPO的强化学习训练,在HumanRef基准测试中取得了最先进的性能,并在域外场景和对象上展示了强大的泛化能力。
HumanRef-CoT is a large-scale Chain-of-Thought (CoT) style object reference dataset consisting of 90,824 samples generated by GPT-4o based on the HumanRef dataset. Each sample is annotated as a structured reasoning trajectory adhering to the paradigm of planning, action and summarization, enabling models to learn decomposable and interpretable reasoning for object candidates. This dataset supports the training of the Rex-Thinker model, which achieves state-of-the-art performance on the HumanRef benchmark through a cold-start supervised fine-tuning phase and GRPO-based reinforcement learning training, and demonstrates strong generalization capabilities across out-of-domain scenarios and objects.
提供机构:
国际数字经济学院(IDEA), 南方科技大学, 北京大学
创建时间:
2025-06-04
搜集汇总
数据集介绍
构建方式
HumanRef-CoT数据集的构建基于HumanRef数据集,通过GPT-4o生成链式思维(Chain-of-Thought, CoT)风格的推理标注。具体流程包括:首先使用Set-of-Mark策略对图像中所有人物进行标记,然后通过精心设计的系统提示和子集特定的上下文示例,引导GPT-4o生成符合规划-行动-总结范式的结构化推理轨迹。每个样本包含详细的推理步骤和最终答案,确保模型能够学习到可解释的逐步推理过程。最终构建的数据集包含90,824个高质量样本,覆盖属性、位置、交互、推理、名人识别和拒绝六个子集。
特点
HumanRef-CoT数据集的核心特点在于其结构化推理标注和广泛的覆盖范围。每个样本不仅包含最终答案,还提供了详细的推理步骤,使模型的预测过程透明且可验证。数据集涵盖多种复杂场景,如多实例指代、空间关系推理和名人识别等,能够全面评估模型的指代理解能力。此外,数据集特别设计了拒绝子集,用于评估模型在无匹配对象时的拒绝能力,增强了模型的可靠性。数据集的多样性和大规模标注使其成为训练和评估指代理解模型的理想选择。
使用方法
HumanRef-CoT数据集主要用于训练和评估基于链式思维推理的指代理解模型。使用该数据集时,通常采用两阶段训练策略:首先进行监督微调(SFT),使模型学会生成结构化推理轨迹;随后通过基于GRPO的强化学习进一步优化模型的准确性和泛化能力。在推理阶段,模型首先使用开放词汇检测器提取候选对象框,然后逐步验证每个候选对象是否符合指代表达式,最终生成可解释的预测结果。该数据集还可用于零样本和领域外评估,验证模型在新类别和新场景中的泛化能力。
背景与挑战
背景概述
HumanRef-CoT数据集由国际数字经济学院(IDEA)、华南理工大学和北京大学的研究团队于2025年创建,旨在支持基于思维链(Chain-of-Thought, CoT)推理的物体指代任务。该数据集基于HumanRef数据集,通过GPT-4o生成包含结构化推理轨迹的标注,涵盖90,824个样本。其核心研究问题是提升物体指代模型的解释性和可靠性,使其预测过程可验证且可信。HumanRef-CoT通过规划-行动-总结的三阶段推理框架,推动了多模态大语言模型在视觉 grounding 领域的应用,显著提升了模型在指代任务中的表现和泛化能力。
当前挑战
HumanRef-CoT面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,物体指代任务需要模型具备细粒度的视觉 grounding 和复杂的语言理解能力,特别是在处理多实例指代、空间关系和交互描述时尤为困难。构建过程中的挑战包括:1) 如何确保GPT-4o生成的推理轨迹与视觉内容严格对齐;2) 处理指代表达中的否定情况和拒绝案例;3) 保持推理步骤与最终预测的一致性;4) 平衡数据规模与标注质量的矛盾。这些挑战需要通过创新的数据工程方法和严格的验证流程来解决。
常用场景
经典使用场景
HumanRef-CoT数据集在视觉语言理解领域具有重要应用价值,尤其在基于自然语言描述的物体指代任务中表现卓越。该数据集通过链式思维(Chain-of-Thought)标注范式,为模型提供了从候选物体定位到逐步验证的结构化推理路径。典型应用场景包括多模态对话系统中对用户指代请求的精确响应,例如当用户询问'请检测坐在乌龟上的人'时,模型能够先识别所有乌龟候选框,再逐一验证其上方是否存在符合描述的人体实例。
实际应用
在实际应用层面,HumanRef-CoT支撑的模型可部署于智能导览、无障碍辅助等需要高精度物体定位的场景。例如在博物馆导览系统中,游客询问'请指出戴金丝眼镜的讲解员'时,系统能通过逐步验证眼镜属性、职业特征等维度给出准确响应。其结构化推理特性也使其在医疗影像分析、自动驾驶等可靠性要求高的领域展现出应用潜力,如准确识别'CT图像中与肿瘤相邻的器官'这类需要多重条件判定的任务。
衍生相关工作
基于HumanRef-CoT的创新范式已衍生出多个重要研究方向。在模型架构方面,催生了如GRPO强化学习与CoT联合训练框架,将推理准确率进一步提升3.1%;在数据构建领域,其提示工程方案被Adaptive-VLM等工作借鉴用于生成医疗指代数据集。该数据集还启发了VideoChain等时序推理研究,将逐步验证机制扩展至视频理解任务。这些衍生工作共同推动了可解释多模态推理技术的发展。
以上内容由遇见数据集搜集并总结生成



