ForgeryAnalysis-PT

github2024-12-02 更新2024-12-16 收录

下载链接：

https://github.com/sunzhihao18/ForgerySleuth

下载链接

链接失效反馈

官方服务：

资源简介：

ForgeryAnalysis-PT数据集由我们的数据引擎ForgeryAnalyst自动生成的伪造分析文本组成。该数据集对应于两个公开的图像篡改检测数据集：CASIA2和MIML。每个条目都为对应的篡改图像提供了伪造分析，包括线索和解释，结构化为Chain-of-Clues格式。

The ForgeryAnalysis-PT dataset consists of forgery analysis texts automatically generated by our data engine, ForgeryAnalyst. This dataset corresponds to two publicly available image tampering detection datasets: CASIA2 and MIML. Each entry provides forgery analysis, including clues and explanations, for the corresponding tampered image, structured in the Chain-of-Clues format.

创建时间：

2024-11-25

原始信息汇总

ForgerySleuth: 图像篡改检测与分析的多模态大语言模型

摘要

本研究探索了多模态大语言模型在图像篡改检测任务中的潜力。我们构建了ForgeryAnalysis数据集，包含篡改分析文本注释。每个条目最初由GPT-4生成，并由专家审查。提出的数据引擎ForgeryAnalyst能够创建更大规模的ForgeryAnalysis-PT数据集用于预训练。我们还提出了ForgerySleuth，利用多模态大语言模型进行全面的线索融合，并生成指示特定篡改区域的分割输出。

ForgeryAnalysis 数据集

ForgeryAnalysis-PT

概述

ForgeryAnalysis-PT数据集由我们的数据引擎ForgeryAnalyst自动生成的篡改分析文本组成。该数据集对应于两个公开的图像篡改检测数据集：CASIA2和MIML。每个条目为对应的篡改图像提供篡改分析，包括线索和解释，结构化为Chain-of-Clues格式。

使用

在使用此数据集之前，请从各自的公开仓库下载原始的CASIA2和MIML数据集，因为ForgeryAnalysis-PT依赖于这些数据集中的对应篡改图像。

每个图像的篡改分析保存为与原始CASIA2和MIML数据集中篡改图像同名的.txt文件。您可以通过以下链接下载此数据集：Google Drive。

许可证

ForgeryAnalysis-PT数据集可免费用于学术研究和开发。但是，您必须遵守原始数据集CASIA2和MIML的条款和条件。

评估数据集

我们使用了几个公开的、广泛使用的图像篡改检测数据集来评估IMD方法的性能。您可以通过以下链接访问原始仓库并下载数据：

数据集	论文	下载URL
Columbia	Detecting Image Splicing Using Geometry Invariants And Camera Characteristics Consistency	https://www.ee.columbia.edu/ln/dvmm/downloads/authsplcuncmp
CASIA	Casia image tampering detection evaluation database	[Unofficial] https://github.com/namtpham/casia1groundtruth
		[Unofficial] https://github.com/namtpham/casia2groundtruth
Coverage	COVERAGE - A Novel Database for Copy-move Forgery Detection	https://github.com/wenbihan/coverage
NIST16	MFC Datasets: Large-Scale Benchmark Datasets for Media Forensic Challenge Evaluation	https://mfc.nist.gov/users/sign_in
IMD20	IMD2020: A Large-Scale Annotated Dataset Tailored for Detecting Manipulated Images	https://staff.utia.cas.cz/novozada/db
COCOGlide	TruFor: Leveraging all-round clues for trustworthy image forgery detection and localization	https://github.com/grip-unina/TruFor?tab=readme-ov-file#cocoglide-dataset

引用

如果您发现此项目对您的研究和应用有用，请使用以下BibTeX进行引用：

@misc{sun2024forgerysleuth, title={ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection}, author={Sun, Zhihao and Jiang, Haoran and Chen, Haoran and Cao, Yixin and Qiu, Xipeng and Wu, Zuxuan and Jiang, Yu-Gang}, publisher={arXiv:2411.19466}, year={2024}, url={https://arxiv.org/abs/2411.19466}, }

搜集汇总

数据集介绍

构建方式

在图像篡改检测领域，ForgeryAnalysis-PT数据集通过自动化注释引擎ForgeryAnalyst构建，该引擎利用GPT-4o生成初步的篡改分析文本，并由专家进行审核。数据集的构建过程结合了CASIA2和MIML两个公开的图像篡改检测数据集，确保了数据的真实性和多样性。每个条目均包含针对篡改图像的详细分析，并以Chain-of-Clues格式组织，便于后续的模型训练和分析。

特点

ForgeryAnalysis-PT数据集的主要特点在于其自动化生成的高质量篡改分析文本，这些文本不仅提供了篡改区域的详细描述，还通过Chain-of-Clues格式增强了数据的可解释性。此外，数据集与CASIA2和MIML数据集的紧密结合，确保了其在图像篡改检测任务中的广泛适用性和实用性。

使用方法

使用ForgeryAnalysis-PT数据集时，用户需先下载CASIA2和MIML数据集，以获取对应的篡改图像。数据集中的每个条目均以.txt文件形式存储，文件名与原始图像一致，便于直接关联使用。用户可通过提供的Google Drive链接下载数据集，并在图像篡改检测任务中进行训练和评估。

背景与挑战

背景概述

在图像篡改检测与分析领域，ForgeryAnalysis-PT数据集的构建旨在推动多模态大语言模型在该任务中的应用。该数据集由ForgeryAnalyst数据引擎自动生成，结合了GPT-4o的初始生成与专家审查，确保了数据的高质量与准确性。ForgeryAnalysis-PT数据集基于CASIA2和MIML两个公开的图像篡改检测数据集，提供了详细的篡改分析文本，并以Chain-of-Clues格式组织，便于模型进行线索融合与区域分割。该数据集的创建不仅为图像篡改检测提供了新的训练资源，还为多模态大语言模型的应用开辟了新的研究方向。

当前挑战

ForgeryAnalysis-PT数据集在构建过程中面临多项挑战。首先，自动生成篡改分析文本的准确性与一致性是关键问题，尽管GPT-4o提供了强大的生成能力，但仍需专家审查以确保数据质量。其次，数据集的规模与多样性也是一大挑战，如何在有限的资源下生成足够多的样本以覆盖各种篡改类型，是数据集构建中的难点。此外，多模态大语言模型的应用在图像篡改检测中仍处于探索阶段，如何有效融合图像与文本信息，并生成准确的分割输出，是该领域面临的技术挑战。

常用场景

经典使用场景

ForgeryAnalysis-PT数据集在图像篡改检测领域中具有经典的使用场景，主要用于训练和预训练多模态大语言模型，以实现对图像篡改区域的精准检测与分析。该数据集通过自动生成的篡改分析文本，结合CASIA2和MIML等公开图像篡改数据集，为模型提供了丰富的篡改线索和解释，帮助模型在图像篡改检测任务中实现更高效的线索融合与区域分割。

实际应用

ForgeryAnalysis-PT数据集在实际应用中具有广泛的潜力，特别是在数字取证、社交媒体内容审核以及网络安全等领域。通过该数据集训练的模型能够自动识别和定位图像中的篡改区域，帮助执法机构、社交媒体平台和企业快速检测和处理虚假图像，从而提升信息的真实性和可靠性。此外，该数据集还可用于教育培训，帮助研究人员和学生更好地理解图像篡改检测的技术原理和应用场景。

衍生相关工作

ForgeryAnalysis-PT数据集的发布催生了一系列相关研究工作，特别是在多模态大语言模型和图像篡改检测领域的结合应用。例如，基于该数据集的ForgerySleuth模型通过线索融合和区域分割技术，显著提升了图像篡改检测的准确性。此外，该数据集还激发了对自动化标注工具和大规模预训练数据生成方法的研究，推动了图像篡改检测技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集