PIXAR

github2026-03-27 更新2026-03-25 收录

下载链接：

https://github.com/VILA-Lab/PIXAR

下载链接

链接失效反馈

官方服务：

资源简介：

PIXAR是一个包含420K+对的基准数据集，具有像素级忠实标签和8种操作类型。它用于视觉语言模型（VLM）图像篡改的检测、定位和描述任务，相比之前的SOTA方法，实现了2.7倍的IoU提升。

PIXAR is a benchmark dataset containing over 420K image pairs, with pixel-level faithful labels and 8 types of manipulation operations. It is designed for the tasks of detection, localization and description of image tampering for vision-language models (VLMs), and achieves a 2.7-fold IoU improvement compared with previous state-of-the-art (SOTA) methods.

创建时间：

2026-03-22

原始信息汇总

PIXAR 数据集概述

数据集基本信息

数据集名称：PIXAR
核心贡献：一个新的、大规模的视觉语言模型（VLM）图像篡改检测基准与训练框架。
主要目标：解决现有基于掩码的篡改基准中存在的标签与真实编辑信号错位的问题，将VLM图像篡改检测重新定义为像素级、语义感知和语言感知的任务。

数据集规模与构成

总规模：超过420,000个训练图像对。
测试集：一个精心平衡的、包含40,000个图像对的测试集。
数据对构成：每个数据对包含原始图像与生成（篡改）图像。
标签信息：每个数据对提供像素级篡改图、语义类别标签和自然语言描述。

关键创新与特性

新分类法：涵盖8种编辑原语（替换、移除、拼接、修复、属性编辑、着色等），并与被篡改对象的语义类别相关联。
新基准：使用像素差异图（$D = |I_{ ext{orig}} - I_{ ext{gen}}|$）和可调阈值（$ au$）生成动态的真实标签（$M_ au$），取代了传统的粗粒度对象掩码，实现了与生成足迹的精确对齐。
新评估指标：通过定位量化像素级正确性，基于真实编辑强度评估置信度，并通过语义感知分类和自然语言描述来衡量对篡改含义的理解。

数据内容与任务

支持任务：分类（真实/篡改）、定位（像素级）、描述（自然语言）。
标签类型：
- 像素级 $M_ au$ 篡改图。
- 语义类别（81个COCO类别）。
- 文本描述。
- 二分类标签（篡改或未篡改）。

数据获取与格式

获取方式：
1. 推荐：从Google Drive下载预处理的完整数据集（链接：https://drive.google.com/drive/folders/1Zwhi403Ozy26cR1CW7EfuomFnE9qDmze?usp=drive_link）。
2. 自定义：下载原始图像对和像素差异图，使用提供的脚本在自定义阈值 $ au$ 下重新生成标签。
文件结构：

dataset_dir/ ├── train/ # 训练集 │ ├── real/ # 真实图像 │ ├── tampered/ # AI篡改图像 │ ├── masks/ # 用于生成篡改图像的掩码 │ ├── soft_masks/ # 像素差异图 M_τ │ └── metadata/ # JSON元数据（包含类别和文本描述） └── validation/ # 验证集（结构同训练集）
阈值（$ au$）选择指南：
- 0.05：默认值，平衡的灵敏度（推荐）。
- 0.01：捕捉微编辑和细微像素变化。
- 0.1：仅包含高置信度的语义变化。
- 0.2：保守，仅包含大型、明显的编辑。

关联模型

基于该数据集训练了多个VLM检测器，能够同时定位、分类和描述篡改区域。发布的模型包括：

PIXAR-7B 与 PIXAR-7B_lite
PIXAR-13B 与 PIXAR-13B_lite 模型可在HuggingFace获取（链接：https://huggingface.co/jiachengcui888/PIXAR-7B）。

许可证

数据集遵循 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在视觉语言模型图像篡改检测领域，PIXAR数据集的构建标志着从粗粒度掩码标注到像素级精准标注的范式转变。该数据集摒弃了传统基于对象掩码的标注方式，转而采用像素差异图作为真值标签。具体而言，通过计算原始图像与生成图像之间的绝对像素差异，并引入可调阈值τ来动态生成篡改区域掩码M_τ。这种构建方法能够精确捕捉细微的像素级编辑痕迹，同时避免了掩码内外区域标注不准确的问题。数据集包含超过42万对训练图像和4万对平衡测试图像，涵盖了替换、移除、拼接、修复等八种篡改类型，每对图像均配有像素级篡改图、语义类别标签和自然语言描述。

特点

PIXAR数据集的核心特征在于其像素级对齐的标注体系与多模态任务集成。数据集首次实现了篡改检测任务中像素级定位、语义分类和自然语言描述的三位一体。其标注不仅精确反映了生成模型留下的编辑足迹，还能通过调整阈值τ灵活适应不同敏感度的检测需求。数据集涵盖的八种篡改类型与COCO语义类别体系相连接，为模型理解篡改的语义内涵提供了结构化基础。此外，数据集特别设计了平衡的测试集，包含来自六种不同生成模型的篡改样本，确保了评估的全面性和鲁棒性。这些特征共同构成了一个既注重像素级精度又强调语义理解的综合性基准。

使用方法

使用PIXAR数据集进行模型训练与评估遵循系统化的流程。研究人员可通过谷歌云端硬盘直接下载预处理数据集，或基于原始图像对自定义阈值τ重新构建标注。数据集采用标准目录结构组织，包含真实图像、篡改图像、像素差异图和元数据文件。训练时需加载基于LLaVA和LLaMA-2的基准架构，集成SAM视觉编码器进行像素级解码，并通过特殊标记实现多任务学习。评估阶段支持并行多GPU测试，提供交并比、置信度校准和语义相似度等多种量化指标。交互式推理工具允许用户上传单张图像获取篡改定位、分类和描述结果，为实际应用提供了便捷接口。

背景与挑战

背景概述

在视觉语言模型（VLM）与图像篡改检测领域，传统基准数据集长期依赖粗糙的对象掩码作为真值标签，这种标注方式与篡改区域的实际像素信号存在显著错位，制约了模型对细微编辑痕迹的精准识别。PIXAR数据集由Xinyi Shang、Yi Tang、Jiacheng Cui等研究人员于2026年构建，其核心研究问题在于重新定义VLM图像篡改任务，从基于区域的粗粒度标注转向像素级、语义感知的细粒度理解。该数据集包含超过42万对训练图像与4万对平衡测试图像，涵盖替换、移除、拼接等八种篡改类型，并首次引入基于像素差异的动态真值映射，显著提升了篡改定位的精度与语义描述的连贯性，为图像真实性认证与生成内容检测提供了更为可靠的评估基准。

当前挑战

PIXAR数据集旨在解决视觉语言模型在图像篡改检测任务中面临的像素级定位与语义理解的双重挑战。传统方法使用二元掩码标注，无法区分掩码内未修改像素与真实篡改证据，同时忽略掩码边界外的细微编辑痕迹，导致模型评估存在系统性偏差。构建过程中的主要挑战在于生成大规模、高质量的像素级真值标签，需设计动态阈值机制以平衡微编辑捕获与高置信度语义变化，并确保八种篡改类型在数据分布上的均衡性。此外，整合多模态信息——包括像素级分割图、语义类别与自然语言描述——要求复杂的标注流程与严格的质量控制，以保障数据的一致性与可扩展性。

常用场景

经典使用场景

在视觉语言模型图像篡改检测领域，PIXAR数据集最经典的应用场景是作为基准测试平台，用于评估和比较不同模型在像素级篡改定位、语义分类和自然语言描述生成等多任务上的综合性能。其超过42万对训练图像和4万对平衡测试集的规模，为研究者提供了丰富的实验材料，特别是在处理替换、移除、拼接、修复等八种篡改类型时，能够全面检验模型的泛化能力。该数据集通过动态阈值τ生成的像素差异图，为模型训练提供了精确的监督信号，使得模型能够学习到从宏观语义到微观像素的篡改特征。

衍生相关工作

PIXAR数据集的发布催生了一系列围绕精细化图像篡改检测的经典研究工作。其基于LLaVA和LLaMA-2架构并集成SAM与CLIP的模型设计，启发了后续研究如何更有效地融合视觉基础模型与大型语言模型来处理像素级视觉任务。数据集提出的[CLS]、[OBJ]、[SEG]多任务令牌机制，为统一框架下同时完成篡改分类、对象识别和像素定位提供了可复用的设计范式。此外，其提出的语义感知损失函数和融合文本描述的提示模式，推动了多模态篡改检测模型在可解释性方面的探索，相关技术已被拓展至深度伪造检测、图像来源溯源等邻近研究领域。

数据集最近研究