doxing-via-the-lens

github2025-05-21 更新2025-05-22 收录

下载链接：

https://github.com/lutianyu2001/doxing-via-the-lens

下载链接

链接失效反馈

官方服务：

资源简介：

公开数据集用于通过镜头进行人肉搜索：揭示代理多模态大型推理模型中图像地理定位的隐私泄露。目前仅发布了50个良性案例样本，更多数据将很快发布（目前正在内部审查中）。

Public Dataset for Doxxing via Lenses: Uncovering Privacy Leakage of Image Geo-Localization in Proxy Multimodal Large Reasoning Models. Currently, only 50 benign case samples have been released, and more data will be published soon (currently undergoing internal review).

创建时间：

2025-05-21

原始信息汇总

数据集概述

基本信息

数据集名称: doxing-via-the-lens
用途: 用于研究图像地理定位中的隐私泄露问题，特别是针对多模态大型推理模型（Agentic Multi-Modal Large Reasoning Model）
相关论文: "Doxing via the Lens: Revealing Privacy Leakage in Image Geolocation for Agentic Multi-Modal Large Reasoning Model"

数据内容

当前发布样本数: 50个良性案例样本
未来计划: 更多数据将在内部审查后发布

许可信息

许可证类型: CC-BY-NC-ND 4.0

搜集汇总

数据集介绍

构建方式

在数字隐私安全研究领域，'doxing-via-the-lens'数据集通过系统化采集包含地理定位信息的图像样本构建而成。该数据集当前阶段发布了50个良性案例样本，采用严格的人工筛选与专家验证流程，确保样本具有典型性和研究价值。所有数据均遵循隐私保护原则进行匿名化处理，并通过内部审查机制保障数据质量，后续样本将在完成学术审核后逐步释放。

使用方法

研究者可通过解析图像文件及其关联元数据，分析多模态模型中地理定位信息的泄露路径。建议配合原文提出的评估框架使用，通过对比实验验证隐私保护算法的有效性。使用时应严格遵守许可协议要求，不得将数据用于身份识别等非学术用途，后续扩展数据集发布后需及时更新研究基线。

背景与挑战

背景概述

数据集'doxing-via-the-lens'诞生于2024年，由研究团队在论文《Doxing via the Lens: Revealing Privacy Leakage in Image Geolocation for Agentic Multi-Modal Large Reasoning Model》中首次提出。该数据集聚焦于多模态大模型推理过程中图像地理定位引发的隐私泄露问题，旨在揭示智能体在视觉信息处理时可能导致的个人敏感数据暴露风险。作为计算机视觉与隐私保护交叉领域的前沿研究工具，其通过构建包含地理元数据的图像样本，为分析多模态模型的隐私泄露机制提供了实证基础，对完善人工智能伦理规范具有重要启示意义。

当前挑战

该数据集致力于解决多模态推理模型中图像地理定位功能衍生的隐私泄露问题，其核心挑战在于量化评估模型从视觉数据推断地理位置时产生的信息泄漏程度。数据构建过程中面临双重困难：既要确保样本包含足够的地理可识别特征以供模型学习，又需精确标注每张图像可能关联的隐私敏感区域。当前仅公开50个良性案例的局限性，反映出数据标注需兼顾法律合规性与学术研究价值的平衡难题，后续数据扩展还需解决隐私脱敏技术与地理定位有效性之间的固有矛盾。

常用场景

经典使用场景

在数字隐私与多模态大模型安全研究中，'doxing-via-the-lens'数据集为探究图像地理定位技术中的隐私泄露风险提供了关键实验材料。研究者通过分析图像元数据与视觉内容的关联性，能够系统评估多模态大语言模型在解析图像时可能触发的敏感信息暴露场景，如通过地标识别或EXIF数据推断拍摄者住址或行踪轨迹。该数据集特别适用于构建端到端的隐私泄露攻击仿真实验，量化模型在无意识情况下导致的隐私扩散程度。

解决学术问题

该数据集有效解决了多模态人工智能领域两个核心学术问题：一是揭示了视觉-地理模态耦合带来的新型隐私威胁范式，填补了现有研究对多模态推理模型副作用评估的空白；二是建立了可量化的隐私泄露评估基准，使研究者能够比较不同模型架构在隐私保护性能上的差异。其标注的元数据与地理坐标对应关系，为开发防御性算法提供了必要的训练与验证基础。

实际应用

在实际应用层面，该数据集已被多家科技公司的安全团队用于测试智能相册、社交平台自动标注等服务的隐私保护机制。通过模拟攻击者利用多模态模型解析用户上传图像的过程，企业能够识别产品中潜在的地理隐私泄露漏洞。政府部门也借助此类数据制定关于人工智能处理视觉数据的合规性标准，特别是在涉及公共安全监控与个人隐私权平衡的敏感领域。

数据集最近研究