语义扰动数据集

Name: 语义扰动数据集
Creator: 中国科学技术大学, 复旦大学, 新加坡国立大学, 中国科学院大学, 伊利诺伊大学厄巴纳-香槟分校
Published: 2025-04-21 12:01:22
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

http://arxiv.org/abs/2504.14848v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过在关键对象区域应用高斯噪声来模拟不同置信度级别的视觉不确定性，每个扰动样本都与一个目标置信度标签相关联，以反映对对象的视觉可靠性。数据集的构建是为了解决视觉语言模型在对象级查询中信心校准的问题，通过在对象区域引入语义扰动，为模型提供更结构化的学习框架，以改进对象识别任务中的视觉不确定性建模。

This dataset simulates visual uncertainty across varying confidence levels by applying Gaussian noise to key object regions. Each perturbed sample is associated with a target confidence label that reflects the visual reliability of the corresponding object. Constructed to address the confidence calibration issue of vision-language models during object-level queries, this dataset introduces semantic perturbations in object regions to provide a more structured learning framework for the model, thus improving visual uncertainty modeling in object recognition tasks.

提供机构：

中国科学技术大学, 复旦大学, 新加坡国立大学, 中国科学院大学, 伊利诺伊大学厄巴纳-香槟分校

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

语义扰动数据集的构建采用了系统化的方法，通过高斯噪声模拟视觉不确定性。首先，利用GroundingDINO和SAM技术提取并定位图像中的关键对象区域。随后，针对不同置信度水平，对这些区域施加不同强度的噪声扰动，以模拟不同程度的视觉模糊性。每个扰动后的图像均标注有真实置信度标签，从而建立视觉可靠性与置信度之间的显式映射。最后，通过两阶段训练流程（监督微调与偏好优化）进一步优化模型的置信度校准能力。

特点

该数据集的核心特点在于其针对视觉语言模型（VLMs）中对象级置信度校准的专门设计。通过语义扰动技术，数据集能够精确模拟真实场景中的视觉不确定性，如遮挡或模糊。此外，数据集覆盖了广泛的噪声水平和置信度目标，为模型提供了丰富的训练样本。其独特之处在于将视觉模糊性与置信度表达直接关联，从而显著提升了模型在对象中心查询中的可信度和可解释性。

使用方法

该数据集的使用方法主要包括两个阶段：监督微调（SFT）和偏好优化（SimPO）。在SFT阶段，模型通过在扰动数据集上的训练，学习视觉不确定性与置信度之间的关联。随后，在SimPO阶段，通过对比不同置信度响应的偏好优化，进一步细化模型的置信度表达能力。这种两阶段方法不仅提升了模型的校准性能，还保持了其在原始任务上的准确性，适用于需要高可靠性置信度表达的多模态应用场景。

背景与挑战

背景概述

语义扰动数据集由来自中国科学技术大学、中国科学院计算技术研究所、新加坡国立大学等机构的研究团队于2025年提出，旨在解决视觉语言模型（VLMs）在对象级查询中的置信度校准问题。该数据集通过应用高斯噪声模拟不同置信度水平下的视觉不确定性，建立了视觉模糊性与置信度水平之间的显式映射。其核心研究问题聚焦于改善VLMs的置信度表达与响应正确性之间的对齐，从而提升模型在安全关键或面向用户场景中的可靠性。该数据集的构建为VLMs的置信度校准提供了新的研究范式，对增强多模态系统的可解释性和可信度具有重要影响。

当前挑战

语义扰动数据集面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集旨在解决VLMs在对象级查询中的置信度校准问题，包括局部视觉不确定性（如遮挡、模糊等导致的语义提取不完整）和多模态偏差（语言先验主导视觉证据）带来的置信度表达失准。在构建过程中，研究团队需克服关键对象区域提取的精确性控制、噪声水平与置信度标签的映射设计，以及保持语义扰动后图像的自然性等挑战。此外，如何通过两阶段训练流程（监督微调与偏好优化）有效提升置信度校准效果，也是数据集构建中的关键难点。

常用场景

经典使用场景

语义扰动数据集在视觉语言模型（VLMs）的置信度校准研究中扮演了关键角色。该数据集通过高斯噪声对关键对象区域进行扰动，模拟不同置信度水平下的视觉不确定性，为模型提供了从视觉模糊性到置信度水平的显式映射。这一方法在对象中心查询任务中显著提升了模型的口头化置信度与响应正确性之间的对齐效果，成为评估和改进VLMs置信度校准性能的基准工具。

衍生相关工作

该数据集催生了多项关于多模态置信度校准的创新研究。基于其语义扰动机制，后续工作扩展了噪声注入策略（如扩散模型驱动的渐进式扰动），并开发了结合监督微调与偏好优化的两阶段训练框架。代表性衍生研究包括面向关系推理的层次化扰动方法、跨模态置信度传播技术，以及将视觉不确定性建模应用于视频时序分析的工作。这些进展共同推动了可信多模态系统的发展。

数据集最近研究