PIXAR
收藏arXiv2026-03-21 更新2026-03-24 收录
下载链接:
https://github.com/VILA-Lab/PIXAR
下载链接
链接失效反馈官方服务:
资源简介:
PIXAR是由穆罕默德·本·扎耶德人工智能大学团队构建的大规模视觉语言模型图像篡改检测基准,包含38万训练样本和4万测试样本。该数据集创新性地采用像素级篡改标注图替代传统物体掩码,通过八种篡改类型(替换/移除/拼接/修复/属性修改等)覆盖真实场景需求,并整合了Flux.2、Gemini等前沿生成模型的编辑结果。数据集经过四阶段严格构建流程,包括生成有效性检查、图像保真度评估及语义标注,支持检测定位与语义理解的多任务评估,旨在解决生成式AI时代细粒度篡改检测的基准失准问题。
PIXAR is a large-scale visual-language model-based image forgery detection benchmark developed by the team at Mohamed bin Zayed University of Artificial Intelligence. It comprises 380,000 training samples and 40,000 test samples. This dataset innovatively replaces traditional object masks with pixel-level forgery annotation maps, covering real-world application demands through eight types of forgery operations including replacement, removal, splicing, inpainting, attribute modification, and others. It also integrates editing results from cutting-edge generative models such as Flux.2 and Gemini. The dataset follows a rigorous four-stage construction pipeline, including generation validity verification, image fidelity assessment, and semantic annotation, and supports multi-task evaluation for both forgery localization and semantic understanding, aiming to address the benchmark misalignment issue in fine-grained forgery detection within the generative AI era.
提供机构:
穆罕默德·本·扎耶德人工智能大学; 伦敦大学学院
创建时间:
2026-03-21
原始信息汇总
PIXAR 数据集概述
数据集基本信息
- 数据集名称:PIXAR
- 核心贡献:提出一个针对视觉语言模型(VLM)图像篡改检测的新分类法、基准和指标。
- 主要目标:解决现有基于掩码的篡改基准中真实编辑信号与粗糙对象掩码标签错位的问题,将任务重新定义为像素级、语义感知和语言感知的任务。
数据集规模与构成
- 总规模:超过 420,000 个训练图像对。
- 测试集:包含 40,000 个图像对(经过平衡处理)。
- 数据标签:每个图像对均包含以下标注:
- 像素级篡改图($M_ au$)。
- 语义类别标签。
- 自然语言描述。
- 图像是否被篡改的标签。
数据特性与创新
- 新分类法:涵盖 8 种编辑原语(替换/移除/拼接/修复/属性修改/着色等),并与被篡改对象的语义类别相关联。
- 新基准:使用像素差异图 $D = |I_{ ext{orig}} - I_{ ext{gen}}|$ 替代二元掩码作为动态真值。通过可调阈值 $ au$ 生成 $M_ au$,能够在较低 $ au$ 值下捕捉微观编辑,在较高 $ au$ 值下捕捉高置信度的语义变化。
- 阈值选择指南:
- $ au = 0.01$:捕捉微观编辑和细微像素变化。
- $ au = 0.05$:默认值——平衡的灵敏度(推荐)。
- $ au = 0.1$:仅捕捉高置信度的语义变化。
- $ au = 0.2$:保守——仅捕捉大型、明显的编辑。
数据获取方式
- 选项A(推荐):下载预处理的完整数据集。训练和测试集($ au = 0.05$)可通过 Google Drive 获取。包含以下文件:
train_0.05.tar.gz:完整训练集(包含所有篡改类型图像)。train_mask-only_0.05.tar.gz:精简训练集(仅包含掩码型篡改图像)。test_full_0.05.tar.gz:完整测试集(聚合了所有6个生成来源)。- 其他按生成来源划分的测试集文件(如 Qwen, Gemini 等)。
- 选项B:从原始数据构建。提供原始图像对和像素差异图,允许用户按任意 $ au$ 值重新生成标签。
数据集目录结构
dataset_dir/ ├── train/ │ ├── real/ # 真实图像 │ ├── full_synthetic/ # 完全生成的图像(空) │ ├── tampered/ # AI篡改图像 │ ├── masks/ # 用于生成篡改图像的掩码 │ ├── soft_masks/ # 像素差异图 M_τ(默认 τ = 0.05) │ └── metadata/ # 每个篡改图像的JSON元数据:{"cls": [...], "text": "..."} └── validation/ └── (相同结构)
相关模型
基于该数据集训练并发布了多个模型变体,均可在 HuggingFace 获取:
- PIXAR-7B:基于 SIDA-7B,使用完整训练集 (
train_0.05) 训练。 - PIXAR-7B_lite:基于 SIDA-7B,使用精简训练集 (
train_mask-only_0.05) 训练。 - PIXAR-13B:基于 SIDA-13B,使用完整训练集 (
train_0.05) 训练。 - PIXAR-13B_lite:基于 SIDA-13B,使用精简训练集 (
train_mask-only_0.05) 训练。
许可信息
- 许可证:MIT License。
搜集汇总
数据集介绍

构建方式
在视觉语言模型图像篡改检测领域,传统基准依赖粗粒度对象掩码,导致与真实编辑信号严重错位。PIXAR数据集通过重构任务定义,采用像素级、语义与语言感知的构建方法。其构建流程涵盖四个阶段:首先,利用前沿生成模型(如Qwen-Image、Gemini等)生成多样篡改类型,包括替换、移除、拼接等八种操作;其次,实施严格的篡改有效性检查,包括几何校正与编辑幅度验证,以过滤无效样本;随后,结合自动化视觉语言模型评估与人工专家评审,确保图像的高保真度;最后,通过计算原始图像与篡改图像间的像素差异图,并利用可调阈值τ生成二进制像素标签,同时手动标注篡改对象的语义类别,形成像素级与语义级双重监督。
特点
PIXAR数据集的核心特点在于其像素级精确性与语义丰富性。区别于传统掩码基准,该数据集通过差异图阈值化生成像素级标签,能够准确捕捉细微编辑与离掩码变更,从而提供与真实篡改信号高度对齐的监督信号。数据集规模庞大,包含超过42万对图像,涵盖八种篡改类型,并平衡了篡改尺寸与复杂性,包括多对象篡改场景。此外,每对图像均配备原始像素差异图、推荐像素标签、语义类别及丰富元数据,支持从定位到语义理解的多任务评估。其高保真度样本经过严格筛选,确保了基准的可靠性与挑战性。
使用方法
PIXAR数据集为篡改检测模型的训练与评估提供了统一协议。在训练阶段,研究者可利用其像素级标签与语义标注,通过多任务损失函数(如像素级交叉熵、Dice损失及语义分类损失)联合优化模型,实现篡改定位、语义分类与自然语言描述生成。评估时,数据集支持多种像素级指标(如Recall、F1-Score、IoU)与语义准确性度量,允许全面衡量模型在细微篡改与跨生成模型泛化能力。此外,可调阈值τ为用户提供了灵活性,可根据不同应用场景调整检测灵敏度。数据集代码与基准数据已公开,便于社区复现与拓展研究。
背景与挑战
背景概述
随着生成式人工智能技术的飞速发展,视觉语言模型(VLM)生成的图像在逼真度上已接近真实照片,这为数字媒体的真实性与可信度带来了严峻挑战。在此背景下,PIXAR数据集于2026年由穆罕默德·本·扎耶德人工智能大学与伦敦大学学院的研究团队联合推出,旨在解决现有篡改检测基准中普遍存在的标注不精确问题。该数据集的核心研究问题是将图像篡改检测从传统的基于粗糙对象掩码的区域级任务,重新定义为基于像素级差异、语义理解和语言描述的精细化任务。通过引入涵盖替换、移除、拼接、修复、属性修改、着色等多种编辑类型的分类体系,并构建包含超过42万对图像的大规模基准,PIXAR为篡改定位、语义分类与描述提供了严谨的评估标准,显著推动了图像取证领域向高精度、可解释方向的发展。
当前挑战
PIXAR数据集所应对的核心领域挑战在于实现像素级精确的篡改检测与定位。传统基准依赖对象掩码作为真值,导致掩码内外像素的编辑信号严重错位,无法准确反映细微篡改与离掩码伪影,从而限制了检测模型的性能与泛化能力。在构建过程中,研究团队面临多重技术挑战:首先,需设计可调阈值τ从像素差异图中生成二进制监督信号,以平衡微编辑敏感度与高置信度修改的捕捉;其次,必须整合多种生成模型与编辑策略,确保数据集的多样性与真实性,同时通过几何校正、编辑幅度检查、语义一致性验证等多阶段过滤流程,保障样本的高保真度与标签的可靠性;此外,还需建立像素级与语义级联合评估指标,以全面衡量检测模型的定位精度与语义理解能力。
常用场景
经典使用场景
在数字图像取证领域,PIXAR数据集为细粒度篡改检测任务提供了精确的像素级标注基准。该数据集通过计算原始图像与篡改图像之间的像素差异图,并利用可调阈值生成二进制监督信号,从而精准捕捉编辑操作的空间分布。这一设计使得PIXAR成为训练和评估视觉语言模型在篡改定位任务中的理想工具,尤其适用于需要区分微编辑与语义变化的复杂场景。
实际应用
在实际应用中,PIXAR数据集为社交媒体内容审核、数字证据鉴定以及新闻真实性验证等场景提供了关键技术支撑。其涵盖的八种篡改类型(如替换、移除、拼接等)模拟了真实世界中的常见伪造手段,有助于开发出能够精准定位篡改区域并理解其语义内容的检测系统,从而提升对生成式人工智能所制造虚假内容的识别能力。
衍生相关工作
PIXAR数据集的推出催生了一系列基于像素级监督的篡改检测研究。例如,以PIXAR为基准训练的PIXAR-7B和PIXAR-13B模型在篡改定位与语义分类任务上显著超越了SIDA、LISA等先前方法。这些工作进一步探索了阈值参数对检测敏感性的影响,并发展了融合像素级损失与语义损失的多任务训练框架,为后续研究奠定了新的评估标准。
以上内容由遇见数据集搜集并总结生成



