SADL

Name: SADL
Creator: 胡志明国家大学·科学大学; 胡志明国家大学·信息技术大学; 胡志明国家大学·科学大学·约翰·冯·诺依曼研究所
Published: 2026-06-29 22:45:38
License: 暂无描述

arXiv2026-06-29 更新2026-07-01 收录

下载链接：

https://github.com/ct101apcs/SADL

下载链接

链接失效反馈

官方服务：

资源简介：

SADL是由胡志明国家大学研究团队创建的首个面向主题感知干扰物定位任务的真实世界基准数据集。该数据集包含1,000张高分辨率图像和1,800个主题感知案例，共计14,617个标注候选对象，其中包含1,938个具有挑战性的硬负例样本，数据来源于COCO、Winoground、Visual Genome和Open Images等公开数据集。数据集通过混合标注流程构建，首先使用智能代理进行预标注，再由人类标注者基于五类包含因子和三类排除规则进行精细标注，确保标注质量与逻辑一致性。该数据集主要应用于计算机视觉与多模态推理领域，旨在系统评估视觉语言模型在主题感知干扰物识别任务中的组合推理能力，为解决图像编辑中自动化识别干扰对象的难题提供诊断工具。

SADL is the first real-world benchmark dataset for the task of topic-aware distractor localization, created by the research team from Vietnam National University Ho Chi Minh City. This dataset contains 1,000 high-resolution images and 1,800 topic-aware cases, with a total of 14,617 annotated candidate objects, including 1,938 challenging hard negative samples. The data is sourced from public datasets such as COCO, Winoground, Visual Genome and Open Images. The dataset is constructed via a hybrid annotation pipeline: AI Agents are first used for pre-annotation, followed by refined annotation conducted by human annotators based on five types of inclusion factors and three types of exclusion rules, to ensure annotation quality and logical consistency. This dataset is primarily applied in the fields of computer vision and multimodal reasoning, aiming to systematically evaluate the compositional reasoning ability of vision-language models in the topic-aware distractor recognition task, and provide a diagnostic tool for addressing the challenge of automated distractor detection in image editing.

提供机构：

胡志明国家大学·科学大学; 胡志明国家大学·信息技术大学; 胡志明国家大学·科学大学·约翰·冯·诺依曼研究所

创建时间：

2026-06-29

原始信息汇总

数据集概述：SADL (Subject-Aware Distractor Localization)

SADL 是一个用于识别与指定主体相关的视觉干扰物的基准数据集。给定一张图像和一个主体描述 M，任务是定位哪些其他物体对 M 构成干扰，同时保留构图必需的物体。

核心规模

1,000 张图像
1,800 个主体感知案例
14,617 个标注候选对象

标注体系

5 个包含因子：F1–F5
3 个排除规则：E1–E3

评估设置

7 个视觉语言模型：零样本评估
4 个非视觉语言模型基线：对比评估

资源链接

在线演示：https://huggingface.co/spaces/ct101apcs/SADL
补充材料与数据集：https://drive.google.com/drive/folders/13qZ0yIb98E48P64EcE3KT48yq5vw-v_O?usp=drive_link

搜集汇总

数据集介绍

构建方式

在摄影与视觉感知领域，图像中的视觉干扰物常与主体争夺注意力，削弱构图质量。SADL数据集为此而生，其构建始于从COCO、Winoground、Visual Genome和Open Images等公开数据集中精心筛选的1,000张高分辨率图像，涵盖街道、室内、自然、肖像等八类场景。为确保主体感知的灵活性，每张图像通过动态主体规格化产生平均1.80个标注案例，总计1,800个主体感知案例。标注流程采用混合管道：首先由Qwen3-VL-32B-Instruct模型进行自动预标注，生成候选对象标签及分割掩码；随后由两名人工标注员独立为每个候选对象标注五项包含因子与三项排除规则，最终由具备专业摄影经验的裁判员裁决分歧，确保标注权威性。

特点

SADL数据集的核心特色在于其精细化的因子与规则体系。它定义了五项包含因子——视觉显著性、空间邻近性、语义不协调性、类别相似性与尺度主导性，全面覆盖干扰物吸引注意力的机制；同时引入三项上下文排除规则——主体属性、中性环境与功能依赖性，用于保留构图必需的对象。数据集包含14,617个标注候选对象，其中1,938个为硬负样本，这些对象看似干扰物但需被保留，对模型构成严峻考验。通过五因子和三规则的结构化标注，SADL实现了对模型错误的因子级分解，可精确诊断是排除规则过度触发、因子检测失败还是空间定位瓶颈所致。此外，跨主体案例中59.8%的候选对象会因主体变化而改变干扰状态，直接量化了模型对主体变化的敏感性。

使用方法

SADL提供了两种互补的评估协议以解耦模型能力。在引导分类协议下，模型接收图像、主体描述及预枚举的候选标签列表，需为每个候选预测三类标签——干扰物、排除物或非干扰物，同时报告因子与规则的二进制归属，这隔离了纯组合推理能力。在开放检测协议下，模型仅凭图像和主体描述自主生成干扰物标签及边界框，再通过SAM 3转换为分割掩码，以匈牙利匹配算法与真实标注对比，衡量端到端部署性能。两种协议的F1分数差（ΔF1）直接量化空间定位瓶颈。评估采用平均召回率AR和DE-GMean为主要指标，前者等权重计算三类召回，后者专注于干扰物与排除物的权衡。数据集以CC BY 4.0许可公开，包含每个候选的因子与规则标签、边界框、分割掩码、主体描述及评估代码。

背景与挑战

背景概述

在摄影与计算机视觉领域，图像中常存在与主体无关的视觉干扰物，它们分散注意力、削弱构图质量。尽管现代编辑工具已能便捷地移除物体，但识别哪些物体应被移除仍高度依赖人工操作，且现有显著性模型与开放词汇检测器缺乏对用户意图的动态适应能力。为弥合这一鸿沟，Cao-Tri Nguyen、Nguyen-Khoa Luong 等研究者于2026年提出了 SADL（Subject-Aware Distractor Localization）基准数据集，由越南国立大学胡志明市分校与信息科技大学联合创建。该数据集涵盖1,800个主体感知案例、14,617个标注候选对象及1,938个硬负样本，核心研究问题在于实现主体感知的干扰物定位，即在给定主体描述下精准识别应移除的干扰物，同时保留构图关键元素。SADL 作为首个真实场景下的诊断基准，为视觉语言模型的主体条件推理能力评估提供了系统性工具，对推动多模态系统的可控性发展具有里程碑意义。

当前挑战

SADL 数据集所应对的核心领域挑战在于主体感知干扰物定位，即如何从图像中区分与指定主体竞争的干扰物、必须保留的语境关键对象以及中性非干扰物，这要求模型同时推理五种包含因素（如视觉显著性、空间邻近性、语义异常性）和三种排除规则（如功能依赖性），现有方法因缺乏主体意识而无法适应意图变化。在构建过程中，挑战体现为三点：其一，动态主体指定的复杂性——同一图像因主体描述不同而产生差异化的干扰物集合，需确保标注的语义一致性；其二，混合标注管线的精度与效率平衡——利用大模型预标注后需人类专家逐候选对象审核包含因素与排除规则，并解决高分歧因素（如语义异常性）的标注争议，最终通过专业摄影师仲裁达成共识；其三，硬负样本的构造——1,938个看似干扰物但必须保留的候选对象对模型的排除校准能力构成严峻考验，防止其因场景级合理性误判而过度抑制真实干扰物。

常用场景

经典使用场景

SADL数据集作为首个面向主体感知干扰物定位的真实世界基准，其经典使用场景聚焦于评估视觉-语言模型在复杂摄影构图中的主体条件化推理能力。给定一张图像与一个文本描述指定的主体，模型需从场景中精准识别哪些对象属于相对于该主体的视觉干扰物，同时保留语义连贯性所需的组成性关键物体。这一任务颠覆了传统显著性与开放词汇检测的固定输出模式，通过引入五类包含因子与三条排除规则，将构图分析从静态映射提升至动态适应层面。SADL的1,800个主体感知案例覆盖了丰富的组合场景，特别是1,938个硬负样本专门用于考验模型的排除校准精度，使其成为检验多模态系统空间推理与选择性注意机制的标杆性诊断工具。

衍生相关工作

SADL的提出催生了一系列具有启发性的衍生工作。在模型评测领域，其双协议范式启发了MathGLANCE与UReason等诊断性基准的构建，推动了多模态大语言模型中视觉感知与推理能力解耦评估的发展。在方法学层面，SADL的五因子包含机制为注意力竞争理论的形式化建模提供了可操作框架，促使后续研究如iDIS与Caution等工作探讨视觉噪声对多模态推理的具体影响路径。更重要的是，该数据集暴露的排除过度触发问题直接引导了面向结构化推理的微调策略研究，研究者开始探索将因子检测与排除判断解耦的提示结构设计，以及基于链式思考的接地优化方法。这些衍生工作共同丰富了视觉-语言模型在主题条件化推理领域的理论基础与技术储备。

数据集最近研究