FineCops-Ref

github2025-06-13 更新2025-07-04 收录

下载链接：

https://github.com/sleepyshep/FineCops-Ref

下载链接

链接失效反馈

官方服务：

资源简介：

Referring Expression Comprehension (REC) 是一个基础的跨模态任务，评估语言理解、图像理解和语言到图像的基础能力。为了推动这一领域的发展，我们引入了一个新的REC数据集，具有两个关键特点。首先，它设计了可控的难度级别，需要在对象类别、属性和多跳关系之间进行多层次的细粒度推理。其次，它通过细粒度编辑和增强生成了负面文本和图像，明确测试模型在目标对象缺失时的拒绝能力——这是现有数据集中经常被忽视但至关重要的挑战。

Referring Expression Comprehension (REC) is a fundamental cross-modal task that evaluates the core capabilities of language comprehension, visual understanding, and language-to-image alignment. To advance the development of this field, we introduce a novel REC dataset with two key distinguishing features. First, it incorporates controllable difficulty levels, requiring multi-level, fine-grained reasoning across object categories, attributes, and multi-hop relational information. Second, it generates negative text and image samples via fine-grained editing and augmentation, explicitly testing the model's rejection capability when the target object is absent—a critical yet often overlooked challenge in existing datasets.

创建时间：

2025-06-12

原始信息汇总

FineCops-Ref 数据集概述

📜 数据集基本信息

名称: FineCops-Ref
发布年份: 2024年6月17日
相关论文:
- 会议论文: EMNLP 2024
- 期刊论文: TPAMI 2025
数据集地址: https://github.com/liujunzhuo/FineCops-Ref

👀 数据集特点

可控难度级别:
- 需要多层次的细粒度推理，涵盖对象类别、属性和多跳关系。
挑战性负样本:
- 通过细粒度编辑和增强生成的负文本和图像，测试模型在目标对象缺失情况下的拒绝能力。

🎯 任务描述

任务类型: Referring Expression Comprehension (REC)
任务目标: 评估语言理解、图像理解和语言到图像的基础能力。

👨‍💻 数据准备

下载数据集:
- 主数据集: FineCops-Ref
- 可选数据集: Ref-Adv, Ref-Reasoning
- 存放路径: data/finecops-ref/, data/ref-adv/, data/ref-reasoning/
预训练模型:
- Specialist Models: Grounding DINO
- MLLMs: Qwen-VL, InternVL
- 存放路径: checkpoints/

🎯 使用方法

1. 基线方法

脚本:
- inference_GD.py (Grounding DINO)
- inference_QwenVL.py (Qwen2-VL)
评估指标:
- Precision, Recall, AUROC (通过evaluation_baseline.py计算)

2. Slow-Fast Adaptation (SFA)

目标提取: target_extraction.py
任务路由: task_routing.py
推理:
- Level 1: 使用 Specialist Models
- Level 2: 使用 MLLMs
评估: evaluation_SFA.py

3. Candidate Region Selection (CRS)

候选区域生成: candidate_generation.py
指令调优:
- 数据集: refcoco_CRS_pos.json, refcoco_CRS_neg.json
推理:
- region_selection_pos.py
- region_selection_neg.py
评估:
- evaluation_CRS_pos.py
- evaluation_CRS_neg.py

📜 引用

bibtex @article{yang2025new, title={New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration}, author={Yang, Xuzheng and Liu, Junzhuo and Wang, Peng and Wang, Guoqing and Yang, Yang and Shen, Heng Tao}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2025}, }

📄 许可证

许可证类型: MIT License

搜集汇总

数据集介绍

构建方式

FineCops-Ref数据集通过精细的跨模态标注流程构建，其核心在于分层设计难度级别并引入负样本增强。研究团队采用多粒度标注策略，对图像中的对象类别、属性及多跳关系进行语义解构，同时通过细粒度编辑技术生成具有挑战性的负样本对。数据采集过程严格遵循难度控制原则，确保样本覆盖从基础物体识别到复杂场景推理的连续谱系，为模型评估提供渐进式挑战。

特点

该数据集在指代表达理解领域具有鲜明的差异化特征。其核心优势体现在可调控的难度梯度设计，通过分层标注体系实现从简单属性匹配到复杂关系推理的全面覆盖。负样本的创造性引入突破了传统数据集的局限性，通过精细编辑生成的对抗性样本有效检验模型的鲁棒性。多模态标注的颗粒度达到像素级精度，每个样本均附带详尽的元数据描述，为模型可解释性研究提供坚实基础。

使用方法

使用该数据集需遵循模块化工作流程。首先配置专用评估环境并下载预处理好的数据包，通过标准化的目录结构确保多基准测试的兼容性。基准评估提供两种典型范式：直接调用预训练模型脚本进行端到端推理，或采用创新的专家-MLLM协作框架。后者通过难度路由机制动态分配任务，简单样本由轻量级专家模型处理，复杂案例则交由大模型深度推理。评估模块提供精度、召回率及AUROC等多维度指标计算，支持对模型能力的全面诊断。

背景与挑战

背景概述

FineCops-Ref数据集由Xuzheng Yang等研究人员于2024年6月首次发布，旨在推动指代表达理解（Referring Expression Comprehension, REC）领域的研究。该任务作为跨模态交互的基础性挑战，要求模型同时具备语言理解、图像解析以及语言到图像的精准定位能力。FineCops-Ref的创新性体现在其可控难度设计，通过多层次细粒度推理（涵盖对象类别、属性和多跳关系）以及包含负样本的构造策略，填补了现有数据集中对目标对象缺失场景评估的空白。该数据集由TPAMI 2025和EMNLP 2024收录的研究成果支撑，其提出的专家模型与多模态大语言模型（MLLM）协作框架，为复杂视觉-语言任务提供了新的方法论范式。

当前挑战

FineCops-Ref针对指代表达理解任务的核心挑战体现在两方面：领域问题的复杂性要求模型处理细粒度组合推理，包括跨类别属性关联、多跳关系解析以及对负样本的鲁棒性判断；数据构建过程中，研究者需通过精细化编辑和增强技术生成语义一致的负样本，同时平衡不同难度层级的样本分布。技术实现层面，如何动态分配简单案例给轻量专家模型、复杂案例给MLLM以优化计算效率（Slow-Fast Adaptation），以及协调候选区域生成与推理选择（Candidate Region Selection）的精度-速度权衡，成为方法设计的显著难点。

常用场景

经典使用场景

在跨模态理解领域，FineCops-Ref数据集通过其可控难度层级和精细负样本设计，成为评估多模态大语言模型（MLLMs）语言-图像对齐能力的基准工具。研究者常利用其分层标注体系（涵盖物体类别、属性和多跳关系）来测试模型在复杂场景下的细粒度推理性能，特别是在需要拒绝目标缺失干扰项的挑战性任务中展现独特价值。

衍生相关工作

基于该数据集提出的候选区域选择（CRS）方法催生了系列跨模态检索优化方案，如阿里巴巴改进的视觉搜索排序算法。其难度分级思想被Adaptive-VLM等框架扩展用于动态计算资源分配。数据集构建方法论更启发了COCO-RefHard等后续benchmark的设计，形成细粒度指称理解研究的技术谱系。

数据集最近研究