Real Text Manipulation (RTM) dataset

arXiv2024-01-23 更新2024-07-30 收录

下载链接：

https://github.com/DrLuo/RTM

下载链接

链接失效反馈

官方服务：

资源简介：

包含14,250个文本图像，其中5,986个是手动篡改的，5,258个是自动篡改的，以及3,006个未篡改的文本图像，用于评估解决方案的稳定性。

This dataset includes 14,250 text images, among which 5,986 are manually tampered, 5,258 are automatically tampered, and 3,006 are untampered. It is used to evaluate the stability of the solution.

创建时间：

2023-12-12

原始信息汇总

RTM 数据集概述

数据集状态

发布状态：即将发布

数据集内容

包含内容：代码和数据集

搜集汇总

数据集介绍

构建方式

在数字图像篡改检测领域，构建高质量的真实文本篡改数据集面临专业操作成本高昂的挑战。RTM数据集通过系统化流程构建：首先从电子商务平台、志愿者拍摄和开源文档三个来源收集多样化的文本图像，确保场景、语言和布局的丰富性。随后，由25名专业编辑使用Adobe® Photoshop进行手动篡改，并辅以模拟真实过程的自动化脚本，涵盖复制移动、拼接、插入、修复和覆盖五种基本操作及其组合。为贴近实际应用，数据集还引入了随机尺寸调整和JPEG压缩等后处理操作。通过利用PS图层透明度信息生成像素级二进制掩码，实现了篡改区域的精确标注，最终形成了包含14,250张图像的大规模数据集。

特点

RTM数据集的核心特征体现在其多样性与隐蔽性的高度统一。多样性首先源于多源数据采集，涵盖了证书、合同、发票等多种文档类型，以及不同语言和版式。其次，数据集整合了手动与自动两种篡改方式，并支持字符、单词到文本行等不同粒度的操作，篡改区域形状既包含规则矩形也涵盖手写签名等不规则轮廓。隐蔽性则表现为篡改区域通常面积较小，平均相对面积仅为0.82%，且篡改文本在颜色、字体和方向上与周围内容高度一致，视觉差异微弱。此外，后处理引入的失真进一步削弱了篡改痕迹，这些特性共同模拟了现实世界中难以察觉的文本篡改场景。

使用方法

该数据集为文本篡改检测研究提供了多维评估框架。在任务设置上，支持像素级篡改定位和图像级真伪分类双重任务。评估时可采用交并比、精确率、召回率和F1值等像素级指标衡量定位精度，同时利用图像级F1值评估分类性能。数据集已按比例划分为10,000张训练图像和4,250张测试图像，各类别分布均衡。研究者可基于该基准测试现有语义分割和图像篡改检测方法，亦可通过其提供的真实篡改样本开发新算法。配套的ASC-Former基线框架展示了多模态特征融合与对比学习在提升检测性能方面的潜力，为后续研究提供了可扩展的架构参考。

背景与挑战

背景概述

在数字金融与电子商务等领域，文本作为信息传递的主要载体，其安全性面临严峻挑战。随着图像编辑工具的普及，篡改文本图像以进行欺诈的行为日益增多，严重威胁着信息安全。为应对这一现实需求，华中科技大学与阿里巴巴集团的研究团队联合构建了Real Text Manipulation (RTM) 数据集。该数据集包含14,250张文本图像，涵盖5,986张人工篡改与5,258张自动篡改样本，并包含3,006张真实图像用于评估模型稳定性。RTM数据集通过模拟真实篡改场景，采用多种篡改技术，旨在推动文本篡改检测领域的发展，为相关算法提供更贴近实际的评估基准。

当前挑战

RTM数据集致力于解决文本篡改检测这一核心领域问题，其面临的挑战主要体现在两方面：在领域问题层面，文本篡改具有高度隐蔽性，篡改区域通常面积微小，且在视觉外观上与周围内容高度相似，导致篡改痕迹难以察觉；同时，文本篡改技术多样，从字符到段落级别的篡改粒度变化大，给检测算法带来巨大困难。在数据集构建层面，高质量的人工文本篡改需要专业技能，导致数据标注成本高昂；此外，如何全面模拟真实世界中多样化的篡改手法，并生成精确的像素级标注，也是构建过程中的主要挑战。现有基于合成方法的数据集往往存在逼真度不足、篡改痕迹不一致等问题，难以完全反映真实篡改特征。

常用场景

经典使用场景

在数字图像取证领域，Real Text Manipulation (RTM) 数据集为文本篡改检测任务提供了经典评估基准。该数据集通过模拟真实场景中的文本篡改行为，包括手动与自动两种篡改方式，涵盖了复制移动、拼接、插入、修复和覆盖五种基本操作及其组合。研究者在开发新型检测算法时，常利用RTM数据集进行模型训练与性能验证，其丰富的篡改类型和精细的像素级标注使得算法能够学习到文本篡改的隐蔽特征与多样形态，从而推动文本伪造检测技术向实际应用场景靠拢。

实际应用

在实际应用层面，RTM数据集直接服务于数字金融、电子商务与证件审核等领域的文档安全验证。例如，在电子发票真伪鉴别、合同文本完整性核查以及数字证书防伪等场景中，基于RTM训练的检测模型能够精准定位被篡改的文本区域，有效防范信息伪造风险。其包含的真实未篡改样本还可用于评估系统的误报率，确保检测方案在实际部署中的可靠性，为维护数字信息生态的安全与可信提供了关键技术保障。

衍生相关工作

RTM数据集的发布催生了一系列围绕文本篡改检测的经典研究工作。以该数据集为基础，研究者提出了ASC-Former等不对称双流架构，创新性地融合了RGB与变换域特征，并引入篡改-真实对比学习模块以增强特征判别力。这些工作不仅推动了多模态信息融合、小目标定位以及对抗性篡改检测等方向的发展，还为后续基于Transformer的检测框架、领域自适应方法以及轻量化部署方案提供了重要的算法启示与性能基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集