HumanRef-CoT-45k

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/IDEA-Research/HumanRef-CoT-45k

下载链接

链接失效反馈

官方服务：

资源简介：

HumanRef-CoT数据集是一个大规模的数据集，包含90,824个高质量的分步推理注释。该数据集基于HumanRef数据集构建，专注于多人指代任务，并提供了结构化的推理轨迹，包括计划、行动和总结阶段。这些注释使得模型的推理过程具有可解释性和可验证性，并为监督微调和基于GRPO的指令调整提供了训练数据。数据集的一部分（45k样本）已开源供学术研究使用。

创建时间：

2025-05-25

搜集汇总

数据集介绍

构建方式

在视觉语言理解领域，HumanRef-CoT-45k数据集基于HumanRef多人物指代表达数据集构建，采用GPT-4o生成高质量链式思维推理标注。通过结构化三阶段标注流程——规划阶段分解指代表达为可解释子目标，行动阶段对候选对象进行逐步验证，汇总阶段整合中间结果生成最终预测，共包含45,000条样本的精确推理轨迹。

特点

该数据集的核心特征在于其链式思维推理架构，每个样本均包含可验证的推理步骤与区域提示框标注，确保过程透明化。数据涵盖多人物场景中的复杂指代表达，支持模型学习拒绝不匹配表达的能力。标注质量经过严格校验，兼具解释性与泛化性，为指称理解任务提供了可靠的训练基础。

使用方法

研究者可通过HuggingFace平台获取TSV格式数据集文件，利用配套可视化脚本解析图像与标注数据。数据集适用于监督微调与强化学习训练阶段，需结合目标检测模型提取候选区域，并按照规划-行动-汇总的推理框架构建训练流程。具体可通过加载标注文件与图像数据，实现端到端的链式思维推理模型训练。

背景与挑战

背景概述

视觉语言理解领域近年来在指代表达理解任务上面临着模型可解释性不足与错误容忍度低的双重困境。IDEA研究院于2024年推出的HumanRef-CoT-45k数据集，基于多人物指代数据集HumanRef构建，包含45,000条由GPT-4o生成的链式思维推理标注。该数据集通过规划、行动与归纳的三阶段推理框架，为指代理解任务提供了可验证的推理轨迹，显著提升了模型决策过程的透明度与可靠性。

当前挑战

指代理解任务需解决复杂场景中多目标关联推理与语义歧义消除的核心难题。数据集构建过程中面临高质量推理链标注的生成一致性挑战，需确保GPT-4o生成的规划步骤与实体指代的精确对齐。同时，视觉-语言模态对齐要求推理步骤必须严格锚定在具体候选区域，这对标注的空间语义一致性提出了极高要求。

常用场景

经典使用场景

在视觉语言理解领域，HumanRef-CoT-45k数据集被广泛应用于指代表达理解任务的链式思维推理研究。该数据集通过提供包含规划、行动和总结三阶段的详细推理标注，使模型能够逐步分析候选对象与语言描述的匹配关系。研究者利用该数据集训练模型进行透明化推理，显著提升了多人物场景下的指代定位精度与可解释性。

解决学术问题

该数据集有效解决了指代任务中缺乏可解释性与错误容忍度的核心学术问题。通过结构化推理链条，模型不仅能准确匹配视觉对象与语言描述，还能在无匹配对象时主动拒绝预测。这种机制突破了传统边界框预测的黑箱模式，为视觉推理领域提供了可验证的决策路径，推动了可信人工智能的发展。

衍生相关工作

基于该数据集衍生的经典工作包括Rex-Thinker多阶段推理框架及其GRPO强化学习方法。这些工作开创了将链式思维推理引入视觉指代任务的先河，后续研究在此基础上发展了动态推理路径调整、多模态推理验证等技术。这些成果共同构成了可解释视觉推理的重要研究方向，推动了整个领域向更透明、更可靠的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集