RECOD Scientific Image Integrity Dataset (RSIID)

Name: RECOD Scientific Image Integrity Dataset (RSIID)
Creator: 计算机科学与工程研究所，坎皮纳斯大学
Published: 2021-05-27 06:58:20
License: 暂无描述

arXiv2021-05-27 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2105.12872v1

下载链接

链接失效反馈

官方服务：

资源简介：

RECOD Scientific Image Integrity Dataset (RSIID)是由坎皮纳斯大学的RECOD实验室创建的一个大型科学伪造图像基准数据集，包含39,423张图像。该数据集通过使用RECOD Scientific Image Integrity Library (RSIIL)对真实科学图像进行操作，模拟了科学图像中最常见的伪造操作，如复制、润饰和清洁。数据集的创建旨在解决科学图像完整性领域中缺乏可用数据集的问题，特别是由于数据敏感性导致的法律障碍。RSIID数据集不仅提供了丰富的像素级真实标签，还通过新的评价指标来评估复制移动伪造检测方法的性能，特别是在科学图像领域的应用。

RECOD Scientific Image Integrity Dataset (RSIID) is a large-scale benchmark dataset for scientific forged images developed by the RECOD Lab at the University of Campinas, consisting of 39,423 images. This dataset manipulates real-world scientific images via the RECOD Scientific Image Integrity Library (RSIIL) to simulate the most prevalent forgery operations in scientific imaging, including copy-move, retouching and cleaning. The creation of RSIID aims to resolve the scarcity of accessible datasets in the field of scientific image integrity, especially the legal obstacles caused by the sensitivity of relevant scientific data. The dataset not only offers rich pixel-level ground truth annotations, but also employs novel evaluation metrics to evaluate the performance of copy-move forgery detection methods, particularly for their applications in the scientific image domain.

提供机构：

计算机科学与工程研究所，坎皮纳斯大学

创建时间：

2021-05-27

搜集汇总

数据集介绍

构建方式

科研图像伪造检测领域长期受制于缺乏公开可用的大规模基准数据集，法律与版权障碍使得真实篡改案例难以共享。为突破这一瓶颈，研究团队构建了RECOD Scientific Image Integrity Dataset（RSIID），该数据集基于开源的RECOD Scientific Image Integrity Library（RSIIL）自动生成。RSIIL复现了科研诚信社区报告中最常见的三类图像伪造操作——复制、润饰与清理，并支持扩展。数据集从公共领域或知识共享许可的显微镜图像与蛋白质印迹图像中选取了2,923张原始图片，通过库中的伪造函数生成39,423张篡改图像，其中训练集包含26,496张，测试集包含12,927张。每张伪造图像均配有丰富的像素级真值标注，区分篡改区域中各对象的唯一标识。

特点

RSIID的核心特点在于其规模、多样性与标注的精细度。数据集覆盖了简单科学图像与复合科学图像两种复杂度层级，复合图像进一步分为面板内篡改与面板间篡改，模拟了科研论文中常见的多图组合与指示性文字叠加场景。每种伪造类型均包含多种变换参数（如旋转、翻转、缩放）及后处理操作，确保数据集的逼真度与挑战性。特别地，数据集引入了不同级别的指示性文字冗余度，以评估其对检测方法的影响。此外，所有图像均来自合法授权来源，避免了法律纠纷，为学术界提供了一个可自由使用、可复现的基准平台。

使用方法

RSIID设计用于评估和训练科研图像伪造检测算法，尤其适用于复制-移动伪造检测任务。研究者可按需访问简单或复合图像子集，利用像素级真值图与JSON元数据（包含源图像、伪造方法及参数）进行模型训练或测试。为更精确地评估检测一致性，数据集配套提出了一致性真阳性（CTP）指标，要求检测结果同时覆盖复制源与目标区域。论文以主流复制-移动检测方法（如Busternet、SIFT-NN）在数据集上建立了基线性能，揭示了现有方法在科研图像领域的局限性，并指出指示性文字与图表是造成误报的主要来源。数据集与库的源代码均开源发布，便于社区扩展与复现。

背景与挑战

背景概述

科学图像完整性领域长期以来面临一个严峻的研究瓶颈，即缺乏可用于设计和评估取证技术的公开数据集。为应对这一困境，巴西坎皮纳斯州立大学RECOD实验室的João P. Cardenuto与Anderson Rocha于2021年提出了RECOD Scientific Image Integrity Dataset (RSIID)。该数据集基于可扩展的开源库RSIIL，模拟了科研诚信社区报告中最常见的图像伪造操作——复制、润饰和清洗，并利用来自公共领域的真实科学图像生成了包含39,423幅篡改图像的基准测试集。RSIID不仅提供了丰富的像素级标注信息，还针对复制-移动伪造提出了新的一致性评估指标，填补了科学图像取证领域缺乏大型、标准化基准数据的空白，对推动该领域研究具有重要影响力。

当前挑战

RSIID所应对的核心挑战在于科学图像取证领域长期存在的两大难题：法律障碍与实践困境。一方面，真实篡改案例涉及版权与名誉权问题，难以公开构建可访问的基准数据集；另一方面，撤稿通知中的描述往往模糊不清，无法提供精确的像素级标注，导致真实数据的可用性极低。在数据集构建过程中，研究者还面临如何模拟真实科研图像中常见的复合图形与标注文字等复杂元素，以及如何确保伪造操作多样性与真实性的挑战。此外，现有自然图像领域的复制-移动检测方法在科学图像上性能骤降，亟需专门针对科学图像特征的检测算法，而RSIID的丰富标注也为评估这些方法的泛化能力提供了关键基准。

常用场景

经典使用场景

RSIID数据集专为科学图像完整性检测领域设计，其最经典的使用场景在于评估和比较不同图像伪造检测算法在科学图像上的表现。该数据集涵盖了复制-移动、修饰和清理三种最常见的科研图像篡改操作，并提供了丰富的像素级标注信息，使得研究者能够在统一的基准下，系统性地测试现有伪造检测技术（如基于SIFT、SURF的特征匹配方法以及深度学习模型）在科学图像这一特定领域中的鲁棒性与有效性。通过该数据集，研究人员可以量化分析不同算法在面对科学图像中特有的图形元素、说明文字以及复合图像结构时的性能差异。

衍生相关工作

RSIID数据集的发布催生了一系列相关研究工作。首先，它直接促成了针对科学图像复制-移动伪造检测的一致性评估指标（Consistent True Positive, CTP）的提出，解决了传统像素级评估无法区分源区域与复制区域一致性的问题。其次，该数据集为多种经典伪造检测方法（如PatchMatch、SIFT-NN、Busternet等）在科学图像领域建立了性能基线，揭示了不同方法在复合图像和文字干扰下的互补特性，进而推动了融合检测策略的研究。此外，该数据集还激发了关于可解释人工智能在科学图像取证中应用的研究，旨在为调查人员提供更透明的篡改定位依据。

数据集最近研究