Forensics-Bench

github2025-04-12 更新2025-03-26 收录

下载链接：

https://github.com/Forensics-Bench/Forensics-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Forensics-Bench是一个新的伪造检测评估基准套件，旨在评估大型视觉语言模型（LVLMs）在多种伪造检测任务中的表现，要求模型具备全面的识别、定位和推理能力。该数据集包含63,292个精心策划的多选视觉问题，涵盖112种独特的伪造检测类型，从5个角度进行分类：伪造语义、伪造模态、伪造任务、伪造类型和伪造模型。

Forensics-Bench is a novel benchmark suite for forgery detection evaluation, which aims to assess the performance of Large Vision-Language Models (LVLMs) across various forgery detection tasks and requires the models to possess comprehensive capabilities of recognition, localization and reasoning. This dataset includes 63,292 carefully curated multiple-choice visual questions, covering 112 unique forgery detection categories, which are classified from five perspectives: forgery semantics, forgery modalities, forgery tasks, forgery types and forgery models.

创建时间：

2025-03-24

原始信息汇总

Forensics-Bench 数据集概述

基本信息

名称: Forensics-Bench
类型: 伪造检测评估基准套件
论文标题: Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models
作者: Jin Wang, Chenghui Lv, Xian Li, Shichao Dong, Huadong Li, Kelu Yao, Chao Li, Wenqi Shao, Ping Luo
发布日期: 2025-03-22
论文状态: 已被CVPR 2025接受

数据集内容

数据量: 63,292个多选视觉问题
覆盖范围:
- 112种独特的伪造检测类型
- 5个视角: 伪造语义、伪造模态、伪造任务、伪造类型和伪造模型
评估模型:
- 22个开源大型视觉语言模型(LVLM)
- 3个专有模型: GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet

数据集特点

专注于评估LVLM在伪造检测方面的综合能力
要求模型具备识别、定位和推理多种伪造内容的能力
旨在推动AIGC时代全方位伪造检测器的发展

获取方式

Hugging Face地址: Forensics-bench/Forensics-bench
文件名称: ForensicsBench.tsv

评估框架

使用工具: VLMEvalKit
主要评估脚本: run.py
评估模式:
- 完整评估(推理+评估)
- 仅推理模式

系统要求

Python包:
- transformers(不同模型需要不同版本)
- 其他依赖见安装说明
API密钥: 评估专有模型需要配置相应API密钥

引用格式

bibtex @misc{wang2025forensicsbenchcomprehensiveforgerydetection, title={Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models}, author={Jin Wang and Chenghui Lv and Xian Li and Shichao Dong and Huadong Li and kelu Yao and Chao Li and Wenqi Shao and Ping Luo}, year={2025}, eprint={2503.15024}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.15024}, }

搜集汇总

数据集介绍

构建方式

Forensics-Bench作为面向大规模视觉语言模型的伪造检测评估基准，其构建过程体现了严谨的科学方法论。研究团队通过系统化采集与标注流程，构建了包含63,292个多选视觉问题的数据集，覆盖112种伪造检测类型。数据采集维度从伪造语义、模态、任务、类型和模型五个视角展开，确保了数据集的全面性。每个样本均经过专业标注团队的严格校验，并采用多阶段质量控制机制，最终形成具有高度可信度的基准数据集。

特点

该数据集最显著的特征在于其多维度的评估体系设计。从技术维度看，它不仅测试模型的识别能力，更强调定位与推理等高级认知功能。数据分布上，精心平衡了不同伪造类型的样本比例，避免评估偏差。问题设计融合了视觉问答与多选判断的复合形式，既考察基础感知也检验复杂推理。特别值得注意的是，数据集包含当前主流的22种开源模型和3种商业模型的评估结果，为横向比较提供了可靠参照。

使用方法

使用该数据集需遵循标准化的评估流程。首先通过VLMEvalKit框架进行环境配置，包括模型路径设置和API密钥管理。评估过程支持两种模式：完整评估流程包含推理与评价两个阶段，而纯推理模式则仅生成预测结果。用户可通过简单的命令行参数指定评估模型和数据集，系统会自动生成包含详细指标的CSV格式报告。为保障复现性，文档明确规定了不同模型对应的transformers版本要求，并提供了完整的依赖管理方案。

背景与挑战

背景概述

Forensics-Bench是由香港大学等机构的研究团队于2025年推出的综合性伪造检测基准测试套件，旨在评估大型视觉语言模型（LVLMs）在多样化伪造检测任务中的表现。该数据集包含63,292个精心构建的多选视觉问题，覆盖了112种独特的伪造检测类型，从伪造语义、伪造模态、伪造任务、伪造类型和伪造模型五个维度进行全面考察。研究团队对22个开源LVLMs和3个专有模型进行了系统评估，揭示了当前模型在全面伪造检测方面面临的重大挑战。该数据集已被CVPR 2025接收，为AIGC时代的全方位伪造检测器研发提供了重要基准。

当前挑战

Forensics-Bench面临的挑战主要体现在两个方面：在领域问题层面，当前大型视觉语言模型在识别、定位和推理多样化伪造内容时仍存在显著不足，特别是在处理复杂语义关联和多模态伪造内容时表现欠佳；在构建过程中，研究团队需要克服大规模高质量伪造样本收集、多维度伪造类型系统分类、以及评估指标科学设计等难题。此外，确保数据集的代表性和平衡性，同时覆盖112种伪造类型并保持问题难度梯度，也是构建过程中的重要挑战。

常用场景

经典使用场景

在数字图像取证领域，Forensics-Bench数据集作为一项综合性基准测试工具，其经典应用场景主要体现在对大规模视觉语言模型（LVLMs）的伪造检测能力进行系统评估。该数据集通过覆盖112种独特的伪造检测类型，从语义、模态、任务、类型及模型五个维度构建了63,292道多选视觉问题，为研究者提供了全面检验模型在识别、定位和推理伪造内容方面性能的标准化平台。尤其在AIGC时代背景下，该数据集成为衡量模型区分生成内容与真实内容边界能力的重要试金石。

解决学术问题

该数据集有效解决了伪造检测研究中缺乏统一评估框架的学术痛点。传统方法往往局限于单一伪造类型或简单分类任务，而Forensics-Bench通过多维度任务设计，系统性地评估模型对深度伪造、图像拼接、局部篡改等复杂伪造形式的综合判断能力。其构建的层次化评估体系不仅揭示了现有LVLMs在细粒度伪造分析中的技术瓶颈，更为跨模态伪造检测的理论研究提供了可量化的比较基准，推动了该领域从单一性能优化向系统性能力提升的范式转变。

衍生相关工作

该数据集的发布催生了一系列延伸研究，包括基于其评估结果的模型改进方法如Locate-Then-Detect框架，以及专门针对多模态伪造线索融合的CrossForgue网络架构。相关工作已形成从基准测试到方法创新的完整研究链条，其中CVPR 2025收录的《Hierarchical Forgery Reasoning with Forensic-Bench》论文系统分析了模型在不同伪造层级的性能相关性。开源社区围绕该数据集构建的VLMEvalKit评估工具链，进一步降低了领域研究者进行可比性实验的技术门槛。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集