Beeemo/ref-adv-s
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Beeemo/ref-adv-s
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- visual-question-answering
- object-detection
language:
- en
tags:
- referring-expression-comprehension
- visual-grounding
- mllm
- benchmark
size_categories:
- 1K<n<10K
---
# Ref-Adv-s
🏠[Website](https://ref-adv.github.io) | 🖥️[Code](https://github.com/dddraxxx/Ref-Adv) | 📊[Results](https://ref-adv.github.io/#results) | 📄[Paper](https://arxiv.org/abs/2602.23898)
**Ref-Adv-s** is the publicly released subset of the Ref-Adv benchmark from our paper **"Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks"** (ICLR 2026).
## Overview
**Referring Expression Comprehension (REC)** links natural language to region-level visual perception — given an image and a text expression, the task is to localize the described object. Standard benchmarks such as RefCOCO, RefCOCO+, and RefCOCOg have driven years of progress, yet they harbor critical shortcuts:
1. **Expressions are too short** (avg. ~3 words), leaving little reasoning demand.
2. **Few visual distractors** make the target easy to find by elimination.
3. **Redundant descriptors** let models latch onto a single cue and ignore the rest.
<p align="center">
<img src="https://ref-adv.github.io/static/images/teaser.png" width="85%">
</p>
**Ref-Adv-s** is a publicly released subset of **1,142 curated cases** from the Ref-Adv benchmark, a modern REC benchmark designed to suppress these shortcuts by pairing complex referring expressions with hard visual distractors. Images are sourced from **COCO val2017** and **OpenImages**.
## Dataset Schema
| Column | Type | Description |
|---|---|---|
| `image` | Image | The input image |
| `file_name` | string | Original image filename |
| `image_file` | string | Image filename in this dataset |
| `normal_caption` | string | Referring expression describing the target object |
| `problem` | string | Full prompt with the referring expression |
| `solution` | list[float] | Ground-truth bounding box in absolute `[x1, y1, x2, y2]` format |
| `normalized_solution` | list[int] | Ground-truth bounding box normalized to 1000-scale `[x1, y1, x2, y2]` |
| `width` | int | Image width in pixels |
| `height` | int | Image height in pixels |
| `image_source` | string | Source dataset (`coco_val2017` or `openimages`) |
| `human_authored` | bool | Whether the caption is human-written |
| `use_negation` | bool | Whether the caption uses negation |
| `distractors` | string | Number of distractor objects in the image |
| `row_idx` | int | Row index |
## Usage
```python
from datasets import load_dataset
ds = load_dataset("dddraxxx/ref-adv-s", split="train")
print(ds[0])
```
## Evaluation
See our [evaluation code](https://github.com/dddraxxx/Ref-Adv) for running model inference and computing metrics (Acc@0.5, Acc@0.75, Acc@0.9, distractor-bin breakdowns). Our [results](https://github.com/dddraxxx/Ref-Adv/tree/main/outputs/qwen) for all Qwen 2.5–3.5 VL models are also available.
## Contact
For questions or issues, you may contact Qihua Dong via email [dongqh078@gmail.com](mailto:dongqh078@gmail.com).
## Citation
```bibtex
@article{dong2026refadv,
title = {Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks},
author = {Qihua Dong and Kuo Yang and Lin Ju and Handong Zhao and Yitian Zhang and Yizhou Wang and Huimin Zeng and Jianglin Lu and Yun Fu},
year = {2026},
journal = {arXiv preprint arXiv: 2602.23898}
}
```
## License
This dataset is licensed under [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/). The copyright of the images belongs to the original sources (COCO, OpenImages).
提供机构:
Beeemo
搜集汇总
数据集介绍

构建方式
在视觉语言理解领域,指代表达式理解任务旨在建立自然语言与图像区域之间的精确关联。Ref-Adv-s数据集的构建源于对现有基准中潜在捷径的深刻反思,其从Ref-Adv基准中精心筛选出1,142个高质量样本。图像素材主要来源于COCO val2017和OpenImages两大公开数据集,确保了视觉内容的多样性与真实性。每个样本均包含复杂的指代表达式与精心设计的视觉干扰物,通过人工撰写与严格筛选,有效抑制了模型依赖简短表达或单一视觉线索的倾向,从而构建出一个更具挑战性的评估平台。
特点
该数据集的核心特征在于其针对性地提升了指代表达式理解任务的难度与深度。相较于传统基准,Ref-Adv-s中的指代表达式平均长度显著增加,语言描述更为复杂,迫使模型进行更深层次的语义推理。图像中引入了大量视觉干扰物,目标对象不再易于通过排除法定位,要求模型具备更强的视觉辨别与上下文整合能力。此外,数据集中还包含了使用否定表述的样本,进一步考验模型对语言细微差别的理解。这些特点共同使得Ref-Adv-s成为一个能够更真实反映多模态大模型视觉推理能力的基准测试集。
使用方法
研究人员可利用该数据集对多模态模型在指代表达式理解任务上的性能进行严谨评估。通过Hugging Face的`datasets`库,可直接加载数据集进行分析与实验。数据集中提供了原始图像、指代表达式、真实边界框坐标及丰富的元信息,便于进行端到端的模型训练或零样本测试。评估时需遵循官方提供的代码计算Acc@0.5、Acc@0.75等精度指标,并可依据干扰物数量等维度进行细粒度性能分析。该数据集严格遵循CC BY 4.0许可协议,确保了其在学术研究中的合规性与可复用性。
背景与挑战
背景概述
指代表达理解(Referring Expression Comprehension, REC)作为连接自然语言与区域级视觉感知的关键任务,旨在根据图像和文本描述准确定位目标物体。传统基准如RefCOCO系列虽推动了领域发展,但其表达简短、视觉干扰物有限等固有缺陷限制了模型深度推理能力的评估。为应对这一局限,研究团队于2026年提出了Ref-Adv-s数据集,该数据集源自ICLR 2026论文《Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks》,由Qihua Dong等学者构建,作为Ref-Adv基准的公开子集,包含1,142个精心筛选的样本,图像来源于COCO val2017与OpenImages。该数据集通过引入复杂表达与困难视觉干扰,旨在更真实地评估多模态大模型在细粒度视觉推理任务中的性能,对推动视觉语言接地研究向更深层次发展具有重要影响。
当前挑战
Ref-Adv-s数据集所应对的核心领域挑战在于提升指代表达理解任务的推理难度。传统基准因表达过于简短、视觉干扰物稀少,使模型易于依赖表面线索或排除法进行定位,未能充分考察对多属性复合描述与复杂场景的理解能力。该数据集通过设计长而复杂的指代表达,并引入大量视觉相似的干扰物体,迫使模型必须整合文本中的多重修饰信息与图像中的细微视觉差异,从而解决模型过度简化与泛化不足的问题。在构建过程中,挑战主要集中于样本的精心筛选与标注,需在COCO与OpenImages等大规模图像源中识别具有足够视觉混淆性的场景,并撰写兼具语法复杂性与语义精确性的描述,确保每一条指代表达都能真实反映对目标物体的唯一性标识,同时避免引入标注偏差或语义歧义。
常用场景
经典使用场景
在视觉语言理解领域,Ref-Adv-s数据集为指代表达式理解任务提供了一个严谨的评估基准。该数据集通过精心设计的复杂指代表达和具有挑战性的视觉干扰物,迫使模型必须深入整合多模态信息,而非依赖简单的词汇匹配或视觉排除策略。其经典使用场景在于系统性地评测多模态大模型在细粒度视觉定位任务中的真实推理能力,尤其关注模型对长文本描述、否定语义以及密集干扰环境的处理效果。
衍生相关工作
围绕Ref-Adv-s数据集及其完整基准,已衍生出一系列探索多模态大模型视觉推理极限的研究工作。这些工作不仅包括对现有VL模型的系统性评测与能力分析,还促进了针对长文本理解、对抗性干扰鲁棒性以及否定推理等特定子任务的新模型架构与训练策略的提出。该基准已成为推动指代表达理解领域向更深层次、更细粒度方向发展的关键催化剂,为后续研究设立了新的性能标杆与挑战方向。
数据集最近研究
最新研究方向
在视觉语言理解领域,指代表达式理解任务旨在建立自然语言与图像区域之间的精准关联。Ref-Adv-s作为Ref-Adv基准的公开子集,其设计聚焦于克服传统数据集中的固有捷径,如表达简短、视觉干扰物稀少及描述冗余等问题。该数据集通过引入复杂的长篇表达与精心设计的视觉干扰物,推动多模态大语言模型在细粒度视觉推理能力上的深入探索。当前前沿研究围绕模型对否定性表达、多目标场景下的语义解析以及跨数据集泛化性能展开,相关进展正逐步揭示模型在真实世界视觉定位任务中的鲁棒性边界,为下一代视觉语言系统的可解释性与可靠性评估提供关键基准。
以上内容由遇见数据集搜集并总结生成



