HumanRef
收藏arXiv2025-03-11 更新2025-03-13 收录
下载链接:
https://github.com/IDEA-Research/RexSeek
下载链接
链接失效反馈官方服务:
资源简介:
HumanRef是一个新颖的参照数据集,由国际数字经济学院(IDEA)设计,旨在解决现实世界中对任意人物的参照任务。该数据集包含103,028条参照语句,每条语句平均指代2.2个实例,涵盖了属性、位置、交互、推理和名人识别等多个方面。数据集通过人工标注和自动标注相结合的方式构建,包含多样场景中的人物图像,旨在推动人物参照表达研究的发展。
HumanRef is a novel reference dataset designed by the International Digital Economy Academy (IDEA), which aims to address the referring task for arbitrary individuals in real-world scenarios. This dataset comprises 103,028 reference utterances, with an average of 2.2 instances referred to per utterance, covering a wide range of categories including attributes, spatial positions, interactions, reasoning, and celebrity recognition. Constructed via a hybrid workflow of manual and automatic annotation, the dataset includes human images across diverse scenarios, with the goal of advancing research on person-oriented referring expressions.
提供机构:
国际数字经济学院(IDEA)
创建时间:
2025-03-11
搜集汇总
数据集介绍

构建方式
HumanRef数据集的构建过程采用了多阶段标注策略,结合了人工标注与自动化标注技术。首先,通过开放集目标检测器DINO-X筛选出包含至少四个人的高分辨率图像,确保数据集的多样性和复杂性。随后,使用Qwen2.5-VL模型为每个图像中的人物生成结构化属性字典,涵盖性别、年龄、服装、动作等关键属性。人工标注部分由标注员根据预定义的属性字典,逐一对图像中的人物进行属性分配,并通过大语言模型将属性转化为自然语言描述。自动化标注部分则通过Bing搜索API收集名人图像,并使用面部识别技术进行匹配,确保名人识别的准确性。最终,HumanRef数据集包含103,028条指代表达,平均每条表达对应2.2个实例。
特点
HumanRef数据集的特点在于其多实例指代能力,突破了传统数据集一对一的指代限制。数据集涵盖了五个关键指代维度:属性、位置、交互、推理和名人识别,确保了指代任务的全面性和复杂性。此外,数据集还引入了拒绝指代子集,要求模型在目标人物不存在时拒绝生成结果,避免了幻觉输出的问题。HumanRef的多样性体现在其图像来源广泛,涵盖了自然场景、工业环境、医疗、体育等多个领域,确保了数据集在真实场景中的适用性。
使用方法
HumanRef数据集的使用方法主要围绕多实例指代任务的评估与模型训练展开。研究人员可以利用该数据集对现有模型进行多实例指代能力的测试,尤其是评估模型在处理复杂自然语言描述时的表现。数据集中的拒绝指代子集可用于训练模型在目标不存在时的拒绝能力,减少幻觉输出。此外,HumanRef还可用于训练和评估多模态大语言模型,如RexSeek,通过多阶段训练策略提升模型的感知与语言理解能力。数据集的代码和模型已在GitHub上开源,便于研究人员复现实验并进行进一步的研究。
背景与挑战
背景概述
HumanRef数据集由国际数字经济研究院(IDEA)与华南理工大学的研究团队于2025年提出,旨在解决计算机视觉领域中基于自然语言描述的人物检测问题。该数据集的核心研究问题是通过自然语言描述精确识别图像中的多个个体,涵盖了属性、位置、交互、推理和名人识别等多个维度。HumanRef的提出填补了现有数据集在多人检测任务中的不足,推动了人物指代表达理解(Referring Expression Comprehension, REC)领域的发展。该数据集包含103,028条指代表达,平均每条表达对应2.2个实例,显著提升了模型在复杂场景下的表现能力。
当前挑战
HumanRef数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,现有模型在处理多人指代表达时表现不佳,尤其是在多实例检测和多实例区分任务中,模型往往只能检测到单一实例,导致召回率显著下降。其次,在数据集构建过程中,如何设计一个能够涵盖多样化场景和复杂指代表达的标注流程是一个重要挑战。HumanRef通过引入多阶段标注方法,结合人工标注与大型语言模型的自动生成,确保了数据的高质量和多样性。此外,模型在处理不存在目标时的拒绝能力也是一个关键挑战,现有模型容易产生幻觉输出,无法准确判断目标是否存在。
常用场景
经典使用场景
HumanRef数据集最经典的使用场景是在计算机视觉领域中,用于训练和评估模型在自然语言描述下检测图像中多个个体的能力。该数据集通过提供丰富的自然语言描述和对应的图像标注,帮助模型理解复杂的属性、空间关系、交互行为、推理过程以及名人识别等多维度信息。这种多实例检测任务在现实世界中具有广泛的应用价值,尤其是在需要精确识别多个个体的场景中,如人群监控、人机交互和智能安防等领域。
实际应用
在实际应用中,HumanRef数据集可以广泛应用于智能监控、人机交互、自动驾驶和医疗影像分析等领域。例如,在智能监控系统中,模型可以通过自然语言描述快速定位和识别特定个体,提升监控效率;在自动驾驶中,模型可以通过描述识别行人或驾驶员的行为,增强车辆的安全性;在医疗影像分析中,模型可以通过描述识别特定患者或医生,辅助诊断和治疗。
衍生相关工作
HumanRef数据集的推出催生了一系列相关研究工作,尤其是在多模态大语言模型(MLLM)与目标检测框架的结合方面。基于HumanRef,研究者提出了RexSeek模型,该模型通过多阶段训练策略,显著提升了在多实例检测任务中的表现。此外,HumanRef还推动了其他多模态模型如ChatRex、Groma等在复杂场景下的性能优化,进一步拓展了多模态模型在视觉-语言任务中的应用范围。
以上内容由遇见数据集搜集并总结生成



