FineCops-Ref
收藏github2025-06-13 更新2025-07-04 收录
下载链接:
https://github.com/sleepyshep/FineCops-Ref
下载链接
链接失效反馈官方服务:
资源简介:
Referring Expression Comprehension (REC) 是一个基础的跨模态任务,评估语言理解、图像理解和语言到图像的基础能力。为了推动这一领域的发展,我们引入了一个新的REC数据集,具有两个关键特点。首先,它设计了可控的难度级别,需要在对象类别、属性和多跳关系之间进行多层次的细粒度推理。其次,它通过细粒度编辑和增强生成了负面文本和图像,明确测试模型在目标对象缺失时的拒绝能力——这是现有数据集中经常被忽视但至关重要的挑战。
Referring Expression Comprehension (REC) is a fundamental cross-modal task that evaluates the core capabilities of language comprehension, visual understanding, and language-to-image alignment. To advance the development of this field, we introduce a novel REC dataset with two key distinguishing features. First, it incorporates controllable difficulty levels, requiring multi-level, fine-grained reasoning across object categories, attributes, and multi-hop relational information. Second, it generates negative text and image samples via fine-grained editing and augmentation, explicitly testing the model's rejection capability when the target object is absent—a critical yet often overlooked challenge in existing datasets.
创建时间:
2025-06-12
原始信息汇总
FineCops-Ref 数据集概述
📜 数据集基本信息
- 名称: FineCops-Ref
- 发布年份: 2024年6月17日
- 相关论文:
- 会议论文: EMNLP 2024
- 期刊论文: TPAMI 2025
- 数据集地址: https://github.com/liujunzhuo/FineCops-Ref
👀 数据集特点
- 可控难度级别:
- 需要多层次的细粒度推理,涵盖对象类别、属性和多跳关系。
- 挑战性负样本:
- 通过细粒度编辑和增强生成的负文本和图像,测试模型在目标对象缺失情况下的拒绝能力。
🎯 任务描述
- 任务类型: Referring Expression Comprehension (REC)
- 任务目标: 评估语言理解、图像理解和语言到图像的基础能力。
👨💻 数据准备
- 下载数据集:
- 主数据集: FineCops-Ref
- 可选数据集: Ref-Adv, Ref-Reasoning
- 存放路径:
data/finecops-ref/,data/ref-adv/,data/ref-reasoning/
- 预训练模型:
- Specialist Models: Grounding DINO
- MLLMs: Qwen-VL, InternVL
- 存放路径:
checkpoints/
🎯 使用方法
1. 基线方法
- 脚本:
inference_GD.py(Grounding DINO)inference_QwenVL.py(Qwen2-VL)
- 评估指标:
- Precision, Recall, AUROC (通过
evaluation_baseline.py计算)
- Precision, Recall, AUROC (通过
2. Slow-Fast Adaptation (SFA)
- 目标提取:
target_extraction.py - 任务路由:
task_routing.py - 推理:
- Level 1: 使用 Specialist Models
- Level 2: 使用 MLLMs
- 评估:
evaluation_SFA.py
3. Candidate Region Selection (CRS)
- 候选区域生成:
candidate_generation.py - 指令调优:
- 数据集:
refcoco_CRS_pos.json,refcoco_CRS_neg.json
- 数据集:
- 推理:
region_selection_pos.pyregion_selection_neg.py
- 评估:
evaluation_CRS_pos.pyevaluation_CRS_neg.py
📜 引用
bibtex @article{yang2025new, title={New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration}, author={Yang, Xuzheng and Liu, Junzhuo and Wang, Peng and Wang, Guoqing and Yang, Yang and Shen, Heng Tao}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2025}, }
📄 许可证
- 许可证类型: MIT License
搜集汇总
数据集介绍

构建方式
FineCops-Ref数据集通过精细的跨模态标注流程构建,其核心在于分层设计难度级别并引入负样本增强。研究团队采用多粒度标注策略,对图像中的对象类别、属性及多跳关系进行语义解构,同时通过细粒度编辑技术生成具有挑战性的负样本对。数据采集过程严格遵循难度控制原则,确保样本覆盖从基础物体识别到复杂场景推理的连续谱系,为模型评估提供渐进式挑战。
特点
该数据集在指代表达理解领域具有鲜明的差异化特征。其核心优势体现在可调控的难度梯度设计,通过分层标注体系实现从简单属性匹配到复杂关系推理的全面覆盖。负样本的创造性引入突破了传统数据集的局限性,通过精细编辑生成的对抗性样本有效检验模型的鲁棒性。多模态标注的颗粒度达到像素级精度,每个样本均附带详尽的元数据描述,为模型可解释性研究提供坚实基础。
使用方法
使用该数据集需遵循模块化工作流程。首先配置专用评估环境并下载预处理好的数据包,通过标准化的目录结构确保多基准测试的兼容性。基准评估提供两种典型范式:直接调用预训练模型脚本进行端到端推理,或采用创新的专家-MLLM协作框架。后者通过难度路由机制动态分配任务,简单样本由轻量级专家模型处理,复杂案例则交由大模型深度推理。评估模块提供精度、召回率及AUROC等多维度指标计算,支持对模型能力的全面诊断。
背景与挑战
背景概述
FineCops-Ref数据集由Xuzheng Yang等研究人员于2024年6月首次发布,旨在推动指代表达理解(Referring Expression Comprehension, REC)领域的研究。该任务作为跨模态交互的基础性挑战,要求模型同时具备语言理解、图像解析以及语言到图像的精准定位能力。FineCops-Ref的创新性体现在其可控难度设计,通过多层次细粒度推理(涵盖对象类别、属性和多跳关系)以及包含负样本的构造策略,填补了现有数据集中对目标对象缺失场景评估的空白。该数据集由TPAMI 2025和EMNLP 2024收录的研究成果支撑,其提出的专家模型与多模态大语言模型(MLLM)协作框架,为复杂视觉-语言任务提供了新的方法论范式。
当前挑战
FineCops-Ref针对指代表达理解任务的核心挑战体现在两方面:领域问题的复杂性要求模型处理细粒度组合推理,包括跨类别属性关联、多跳关系解析以及对负样本的鲁棒性判断;数据构建过程中,研究者需通过精细化编辑和增强技术生成语义一致的负样本,同时平衡不同难度层级的样本分布。技术实现层面,如何动态分配简单案例给轻量专家模型、复杂案例给MLLM以优化计算效率(Slow-Fast Adaptation),以及协调候选区域生成与推理选择(Candidate Region Selection)的精度-速度权衡,成为方法设计的显著难点。
常用场景
经典使用场景
在跨模态理解领域,FineCops-Ref数据集通过其可控难度层级和精细负样本设计,成为评估多模态大语言模型(MLLMs)语言-图像对齐能力的基准工具。研究者常利用其分层标注体系(涵盖物体类别、属性和多跳关系)来测试模型在复杂场景下的细粒度推理性能,特别是在需要拒绝目标缺失干扰项的挑战性任务中展现独特价值。
衍生相关工作
基于该数据集提出的候选区域选择(CRS)方法催生了系列跨模态检索优化方案,如阿里巴巴改进的视觉搜索排序算法。其难度分级思想被Adaptive-VLM等框架扩展用于动态计算资源分配。数据集构建方法论更启发了COCO-RefHard等后续benchmark的设计,形成细粒度指称理解研究的技术谱系。
数据集最近研究
最新研究方向
在跨模态理解领域,FineCops-Ref数据集通过引入可控难度层级和精细化负样本,推动了指代表达理解(REC)任务的范式革新。当前研究聚焦于专家模型与多模态大语言模型(MLLM)的协同机制,其中慢快自适应(SFA)方法通过动态任务路由实现计算资源优化,候选区域选择(CRS)策略则利用MLLM的推理能力提升细粒度定位精度。这些技术被TPAMI 2025和EMNLP 2024收录的研究证实,不仅解决了传统REC数据集忽视的负样本判别难题,更为自动驾驶、医疗影像分析等需要高鲁棒性视觉-语言对齐的场景提供了新的评估基准。
以上内容由遇见数据集搜集并总结生成



