Explainable Tampered Text Detection (ETTD)

Name: Explainable Tampered Text Detection (ETTD)
Creator: 华南理工大学
Published: 2024-12-19 21:10:03
License: 暂无描述

arXiv2024-12-19 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.14816v1

下载链接

链接失效反馈

官方服务：

资源简介：

ETTD数据集是由华南理工大学和蚂蚁集团联合创建的，旨在支持可解释的篡改文本检测任务。该数据集包含21000张图像，其中包括11000张经过篡改的文本图像和10000张真实文本图像，涵盖多语言卡片、文档和场景文本等多种场景。数据集通过多种篡改方法（如复制移动、拼接和生成文本编辑）生成，并使用Poisson Blending技术减少视觉不一致性。数据集的创建过程包括从互联网和现有数据集中收集图像，进行文本篡改，并使用GPT4o生成异常描述。ETTD数据集主要应用于信息安全领域，旨在解决文本图像篡改检测中的黑箱问题，提供可靠的预测和解释。

The ETTD dataset was jointly created by South China University of Technology and Ant Group, aiming to support the task of explainable tampered text detection. This dataset contains 21,000 images in total, including 11,000 tampered text images and 10,000 authentic text images, covering various scenarios such as multilingual cards, documents, and scene texts. The dataset is generated via multiple tampering methods, including copy-move, splicing, and generative text editing, and uses Poisson Blending technology to reduce visual inconsistencies. The dataset creation process includes collecting images from the internet and existing datasets, conducting text tampering, and generating anomaly descriptions with GPT-4o. The ETTD dataset is primarily applied in the field of information security, with the goal of addressing the black-box problem in text image tampering detection and providing reliable predictions and explanations.

提供机构：

华南理工大学

创建时间：

2024-12-19

搜集汇总

数据集介绍

构建方式

Explainable Tampered Text Detection (ETTD) 数据集的构建旨在填补可解释篡改文本检测领域的数据空白。该数据集通过收集多语言文档、身份证和场景文本图像，并采用多种篡改方法（如复制-粘贴、拼接和基于扩散模型的文本编辑）对图像进行篡改。为了减少视觉不一致性，数据集还引入了Poisson Blending技术。最终，ETTD数据集包含了11,000张篡改文本图像和10,000张真实文本图像，涵盖了丰富的篡改场景和多样化的篡改方法。此外，数据集还提供了像素级注释，用于精确定位篡改区域，并通过GPT4o生成自然语言描述，解释篡改区域的视觉和语言异常。

特点

ETTD数据集的特点在于其规模大、多样性高且具有可解释性。数据集涵盖了多种文本类型（如文档、身份证、场景文本）和语言（如英语和中文），并通过多种篡改方法生成篡改图像，确保了数据的广泛性和代表性。此外，数据集不仅提供了像素级的篡改区域标注，还通过GPT4o生成了自然语言描述，详细解释了篡改区域的视觉和语言异常。这种双重标注方式使得ETTD数据集在可解释篡改文本检测任务中具有独特的优势，能够为模型提供更丰富的训练和评估信息。

使用方法

ETTD数据集的使用方法主要围绕可解释篡改文本检测任务展开。研究人员可以利用该数据集训练和评估多模态大模型，特别是那些能够同时检测篡改文本并生成自然语言解释的模型。数据集中的像素级标注可用于指导模型精确定位篡改区域，而自然语言描述则可用于验证模型的解释能力。此外，数据集还提供了自动过滤机制，通过OCR准确性筛选低质量的自然语言描述，进一步提升标注质量。研究人员还可以利用数据集中的多种篡改方法进行跨篡改方法的评估，以验证模型的泛化能力。

背景与挑战

背景概述

Explainable Tampered Text Detection (ETTD) 数据集由华南理工大学和蚂蚁集团的研究团队于2024年提出，旨在解决篡改文本检测中的可解释性问题。随着图像处理技术的快速发展，篡改文本在信息安全和防欺诈领域的重要性日益凸显。现有的篡改文本检测方法虽然能够定位篡改区域，但其预测结果缺乏可解释性，导致结果不可靠。ETTD数据集首次填补了这一空白，提供了大规模的篡改文本图像及其自然语言描述，涵盖了多语言卡片、文档和场景文本等多种场景，并采用了多种篡改方法，如复制-粘贴、拼接和生成式文本编辑。该数据集的构建为可解释性篡改文本检测任务的研究提供了重要支持，推动了该领域的发展。

当前挑战

ETTD数据集在构建和应用过程中面临多重挑战。首先，篡改文本通常占据图像中的极小区域，视觉异常不明显，这使得多模态大模型难以准确检测篡改文本并描述其异常。其次，在数据标注过程中，由于文本的密集性和相似性，直接使用二进制掩码提示会导致模型混淆，影响标注质量。为解决这一问题，研究团队提出了融合掩码提示方法，通过像素加权将掩码与原始图像融合，显著减少了混淆并提高了标注质量。此外，篡改文本的视觉一致性要求较高，传统的复制-粘贴方法容易导致视觉不一致，研究团队采用泊松混合技术减少了视觉异常。最后，如何在大模型中引入辅助提示以增强对篡改区域的细粒度感知，也是该数据集应用中的一大挑战。

常用场景

经典使用场景

Explainable Tampered Text Detection (ETTD) 数据集在文本图像篡改检测领域具有广泛的应用场景，尤其是在多语言文档、身份证件和场景文本图像中。该数据集通过提供像素级篡改区域标注和自然语言描述的异常信息，帮助研究人员开发能够检测并解释篡改文本的模型。经典使用场景包括检测文档中的篡改文本、识别身份证件中的伪造信息以及分析场景文本中的异常。

衍生相关工作

ETTD 数据集的推出催生了一系列相关研究工作，尤其是在多模态大模型和可解释性篡改检测领域。基于该数据集，研究人员提出了多种改进模型，如 Tampered Text Detective (TTD)，该模型通过引入参考定位提示，显著提升了模型对篡改文本的细粒度感知能力。此外，ETTD 数据集还推动了多模态大模型在文本篡改检测中的应用，如 GPT4o 在生成异常描述方面的优化，进一步提升了检测和解释的准确性。

数据集最近研究