DoxBench

github2025-06-07 更新2025-06-08 收录

下载链接：

https://github.com/lutianyu2001/DoxBench

下载链接

链接失效反馈

官方服务：

资源简介：

DoxBench是一个精心策划的数据集，包含500张真实世界的图像，反映了多样化的隐私场景。该数据集用于评估多模态大型推理模型（MLRMs）在解释复杂视觉内容时可能带来的新型隐私风险，特别是从用户生成的图像中推断敏感地理位置信息的能力。

DoxBench is a carefully curated dataset containing 500 real-world images that depict diverse privacy scenarios. This dataset is designed to evaluate the novel privacy risks that may arise when multimodal large reasoning models (MLRMs) interpret complex visual content, particularly their ability to infer sensitive geolocation information from user-generated images.

创建时间：

2025-05-21

原始信息汇总

DoxBench 数据集概述

数据集基本信息

名称: DoxBench
研究主题: 多模态大型推理模型中的地理位置隐私泄露
数据集规模: 500张真实世界图像
最后更新: June 2025
许可证:
- 代码: Apache License 2.0
- 数据集: Creative Commons Attribution NonCommercial NoDerivatives 4.0 International

数据集内容

数据实例

图像文件夹: 包含隐私处理后的图像（已移除EXIF数据）
EXIF元数据: exif.csv文件包含GPS坐标和相机设置等元数据
真实标签: result.csv文件包含Google Geocoding API导出的地址信息

数据字段

图像文件

高分辨率照片（已去除EXIF元数据）
按隐私级别组织文件夹（L1, Mirror）
保留原始文件名以便交叉引用

exif.csv

SourceFile: 原始文件名
GPSLatitude, GPSLongitude: GPS坐标
GPSPosition: 组合GPS位置信息
Make, Model: 相机设备信息
CreateDate, DateTimeOriginal: 时间元数据
ImageHeight, ImageWidth: 图像尺寸
ISO, Aperture, ExposureTime: 相机设置
200+额外EXIF字段

result.csv

filename: 图像文件名
address: 人类可读地址
latitude: GPS纬度坐标
longitude: GPS经度坐标

数据分割

Level 1 (L1): benign_people文件夹，约126张图像（占总数据集25.2%）
Mirror: mirror文件夹，约46张图像（占总数据集9.2%）

数据集特点

支持11+多模态模型评估
三级隐私风险框架
GeoMiner攻击框架
真实世界图像集
基于距离的准确度指标
线索挖掘分析
并行处理
全面输出结果

引用

bibtex @misc{luo2025doxinglensrevealingprivacy, title={Doxing via the Lens: Revealing Privacy Leakage in Image Geolocation for Agentic Multi-Modal Large Reasoning Model}, author={Weidi Luo and Qiming Zhang and Tianyu Lu and Xiaogeng Liu and Yue Zhao and Zhen Xiang and Chaowei Xiao}, year={2025}, eprint={2504.19373}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2504.19373}, }

搜集汇总

数据集介绍

构建方式

DoxBench数据集通过系统性采集真实场景下的用户生成图像构建而成，特别关注多模态大模型可能引发的隐私泄露风险。研究团队采用三级视觉隐私风险框架，从公开场景到私人空间的不同敏感层级，精心筛选了500张涵盖多样化隐私场景的图像样本。所有图像均经过严格的隐私处理流程，包括移除EXIF元数据中的地理位置信息，同时保留原始文件名以便于交叉验证。配套的元数据文件包含完整的GPS坐标、相机参数等200余项技术指标，并通过Google地理编码API生成了标准化地址信息作为基准真值。

特点

该数据集最显著的特点在于其首创的三级隐私分类体系，能够精确量化不同场景下的地理位置泄露风险。样本覆盖了公共场合人物图像、镜面反射等特殊场景，并采用距离精度指标进行细粒度评估。数据集配套提供了完整的EXIF元数据与地理编码信息，支持多维度隐私泄露分析。特别值得注意的是，数据集设计了模块化的文件夹结构，便于研究者针对不同隐私级别开展对比实验，同时为后续扩展预留了Level 2和Level 3数据的接口。

使用方法

使用DoxBench需通过GitHub仓库获取完整代码库，并配置包含OpenAI、Google Maps等服务的API密钥环境。实验脚本支持11种主流多模态模型的并行评估，可通过命令行参数灵活控制推理模式（包括标准思维链和GeoMiner工作流）、采样策略及防御机制测试。典型工作流程包括：加载result.csv基准文件，选择目标模型架构，指定输出目录后启动自动化评估。系统会生成包含地理预测结果、误差距离和推理过程的分析报告，支持从中断点恢复实验。进阶研究可结合ClueMiner工具进行隐私线索的自动化挖掘与分类。

背景与挑战

背景概述

DoxBench数据集由Weidi Luo、Tianyu Lu等学者于2025年联合创建，旨在揭示多模态大推理模型（MLRMs）中存在的隐私泄露风险。该数据集聚焦于通过用户生成图像推断敏感地理位置信息的研究问题，包含500张真实场景图像，涵盖不同隐私级别的情境。研究团队来自威斯康星大学、南加州大学等知名机构，其创新性工作首次系统化地构建了三级视觉隐私风险框架，为评估多模态模型的隐私泄露能力提供了标准化基准。该数据集通过严谨的伦理审查流程，填补了AI安全领域对推理时隐私风险量化评估的空白，对促进负责任AI发展具有重要学术价值。

当前挑战

DoxBench数据集面临的核心挑战体现在两个维度：在领域问题层面，多模态模型强大的视觉线索推理能力与内部世界知识结合，显著降低了攻击者获取用户地理位置信息的门槛，这种新型隐私泄露模式对现有防护机制提出严峻考验；在构建过程中，研究团队需克服图像隐私分级标注的复杂性，包括处理EXIF元数据剥离与地理位置真值标注的精确匹配，同时平衡数据多样性与伦理审查要求。特别值得注意的是，反射表面等非直接视觉线索的位置推断，以及模型对隐私相关视觉特征的过度依赖，均为数据集构建与评估带来了独特的技术挑战。

常用场景

经典使用场景

在隐私安全与多模态大模型推理的研究领域，DoxBench数据集为探索图像地理位置信息泄露提供了标准化评估平台。该数据集通过精心设计的隐私风险分级框架，支持研究人员系统性地测试多模态大模型从视觉内容中推断敏感位置信息的能力。其典型应用场景包括构建端到端的隐私攻击模拟实验，评估模型在自拍、镜面反射等日常图像中识别建筑特征、地理标志物的表现，为理解模型推理过程中的隐私泄露机制提供实证基础。

衍生相关工作

DoxBench催生了多个标志性研究方向。其提出的GeoMiner攻击框架启发了后续工作《VisualGPS》和《PrivacyLens》，分别从对抗样本生成和注意力机制解释性角度深化研究。数据集构建方法论被EMNLP 2025最佳论文《MirrorLeak》借鉴用于研究镜面反射泄露问题。在防御方向，NeurIPS 2026的《PrivGuard》系列工作基于该基准开发了首个多模态隐私保护微调方案，形成完整的攻防研究生态体系。

数据集最近研究