DeFacto

Name: DeFacto
Creator: 清华大学自动化系, 中关村学院, 新疆大学计算机科学与技术系, 福州大学, 中国科学院自动化研究所
Published: 2025-09-25 16:58:10
License: 暂无描述

arXiv2025-09-25 更新2025-09-27 收录

下载链接：

https://github.com/tinnel123666888/defacto

下载链接

链接失效反馈

官方服务：

资源简介：

DeFacto 是一个包含约 10 万张图像的对抗性数据集，旨在解决视觉语言推理模型在复杂场景下过度依赖语言先验、推理过程与实际视觉证据脱节的问题。该数据集通过区域掩码和开放词汇检测构建，包含正面、对抗性和随机掩码实例，确保只有问题相关的区域被移除，而无关的上下文得到保留。

DeFacto is an adversarial dataset containing approximately 100,000 images, designed to mitigate the problem that vision-language reasoning models overly rely on language priors in complex scenarios and their reasoning processes are disconnected from real visual evidence. This dataset is constructed through region masking and open-vocabulary detection, and includes positive, adversarial, and randomly masked instances, ensuring that only regions relevant to the task query are removed while irrelevant contextual information is preserved.

提供机构：

清华大学自动化系, 中关村学院, 新疆大学计算机科学与技术系, 福州大学, 中国科学院自动化研究所

创建时间：

2025-09-25

原始信息汇总

DeFacto数据集概述

数据集简介

DeFacto是一个用于强制执行证据基础和忠实推理的图像反事实思考数据集，基于论文《DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning》构建。

数据集获取

数据集地址：https://huggingface.co/datasets/tinnel123/defacto_dataset

数据集结构

数据集以编号子文件夹（如1、2、3等）组织，每个子文件夹包含以下文件：

图像文件

original.(ext)：原始输入图像
original_smask.(ext)：任务相关区域被掩盖的图像（用于反事实监督）
original_rmask.(ext)：任务无关区域被随机掩盖的图像

标注文件

boxes.txt：图像中所有边界框
sboxes.txt：任务相关区域对应的边界框
outside_boxes.txt：任务无关区域对应的边界框
random_boxes.txt：随机掩盖区域的边界框
question.txt：与图像关联的问题
answer.txt：真实答案

数据转换工具

提供DeFacto_train/dataset_maker.py脚本，用于将JSON格式数据转换为上述数据集结构。

相关论文

论文标题：DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning
作者：Tianrun Xu等
年份：2025
arXiv链接：https://arxiv.org/abs/2509.20912
分类：cs.AI

搜集汇总

数据集介绍

构建方式

DeFacto数据集通过自动化流程构建，整合多模态语言模型与开放词汇检测技术。首先利用Qwen2.5-VL解析问题并提取关键描述符，随后结合区域提议网络和OCR模块定位图像中的候选区域。通过DINO-X开放词汇检测器筛选与问题相关的证据区域，并基于置信度阈值划分正例、反事实和随机掩码样本。最终生成约10万张图像的多样化实例，覆盖自然图像、科学图表及文档等场景。

特点

该数据集以反事实推理为核心特色，通过正例、反事实和随机掩码三种互补范式强化证据关联性。其样本设计确保仅掩码关键证据区域而保留无关上下文，有效避免模型依赖虚假相关性。数据集涵盖视觉问答、文档理解等多类基准任务，兼具广泛的领域代表性和结构复杂性，为多模态推理的忠实性评估提供坚实基础。

使用方法

DeFacto数据集适用于基于强化学习的多模态模型训练，采用GRPO优化策略整合答案正确性、格式一致性和区域选择连贯性三重奖励。模型需遵循结构化输出格式，在证据可见时预测边界框并生成答案，证据缺失时输出未知标记。训练过程通过反事实监督强制模型对齐视觉证据与推理路径，提升其在复杂场景下的泛化能力和可解释性。

背景与挑战

背景概述

随着多模态语言模型在视觉语言推理领域的显著进展，2025年由清华大学等机构的研究团队提出的DeFacto数据集，致力于解决模型在图像推理过程中依赖无关区域或先验知识导致推理不忠实的问题。该数据集通过构建包含约10万张图像的正例、反事实和随机掩码样本，强化模型对视觉证据的定位能力，推动可解释多模态推理的发展。

当前挑战

DeFacto数据集旨在应对多模态推理中模型答案正确但推理过程缺乏视觉依据的挑战，具体包括证据定位偏差和伪相关性导致的泛化能力不足。在构建过程中，需通过开放词汇检测器与OCR模块自动识别问题相关区域，并确保掩码操作仅移除关键证据而保留无关上下文，以避免引入人工标注偏差。

常用场景

经典使用场景

DeFacto数据集在提升多模态语言模型的可解释推理能力方面展现出经典应用价值。该数据集通过构建正例、反事实和随机掩码三种训练样本，为模型提供了证据定位与答案生成的联合监督信号。在视觉问答任务中，模型需要同时输出与问题相关的边界框坐标和正确答案，若关键视觉证据被掩码则必须返回未知标识。这种设计迫使模型建立视觉区域与语义推理之间的显式关联，有效解决了传统方法中推理轨迹与图像证据脱节的问题。

解决学术问题

该数据集主要针对多模态推理中的证据忠实度缺失问题，通过反事实训练机制消解模型对语言先验和数据集偏差的依赖。其核心贡献在于构建了联合优化答案准确性与区域级忠实度的强化学习框架，显著降低了误定位失败和伪正确性两种典型错误模式。实验表明该方法在VQAv2、OKVQA等基准上实现超过20%的性能提升，为可解释人工智能研究提供了新的范式，推动了视觉语言模型从表面匹配向因果推理的范式转变。

衍生相关工作

该数据集的创新范式催生了多维度延伸研究。在方法层面，GRIT和DeepEyes等工作借鉴其区域标注与强化学习结合思路，发展了动态视觉工具调用机制；理论层面催生了对反事实推理形式化的深入探讨，如C-VQA和CRIPP-VQA将反事实机制扩展到视频理解领域；技术生态方面推动了开放词汇检测器与OCR模块的协同进化，DINO-X等检测框架通过适配多模态描述符实现了更精细的证据定位。这些衍生工作共同构成了视觉语言推理领域的新兴研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集