Sc-IML
收藏arXiv2025-07-17 更新2025-07-19 收录
下载链接:
https://github.com/vpsg-research/SCAF
下载链接
链接失效反馈官方服务:
资源简介:
Sc-IML数据集是首个基于涂鸦标注的图像篡改定位数据集,由新疆大学计算机科学与技术学院的研究团队创建。该数据集包含5737张图像,主要来自CASIAv2、Coverage、Columbia和NIST16等主流数据集的涂鸦标注版本。涂鸦标注方式相较于像素级标注更加高效,每张图像的标注时间约为20秒,比像素级标注快69倍。数据集的创建旨在降低标注成本,提高标注效率,同时提供有用的空间线索,帮助开发评估弱监督图像篡改定位方法,推动该领域的研究。
The Sc-IML dataset is the first scribble-annotated dataset for image tampering localization, developed by the research team from the School of Computer Science and Technology of Xinjiang University. This dataset contains 5737 images, primarily sourced from the scribble-annotated versions of mainstream datasets including CASIAv2, Coverage, Columbia, and NIST16. Scribble annotation is more efficient than pixel-level annotation: the annotation time for each image is approximately 20 seconds, which is 69 times faster than that of pixel-level annotation. The dataset was created to reduce annotation costs and improve annotation efficiency, while providing valuable spatial cues to facilitate the development and evaluation of weakly-supervised image tampering localization methods, thereby advancing research in this field.
提供机构:
新疆大学计算机科学与技术学院
创建时间:
2025-07-17
原始信息汇总
SCAF数据集概述
基本信息
- 数据集名称:SCAF
- 发布状态:待发布(论文被接受后将公开源代码)
说明
- 当前数据集详情页仅包含发布计划说明,未公开具体数据集内容或源代码。
- 公开时间取决于论文发表进度,需等待后续更新。
备注
- 该页面目前未提供数据集的具体描述、规模、格式或使用场景等信息。
搜集汇总
数据集介绍

构建方式
在图像篡改定位领域,高质量像素级标注的获取一直是制约模型性能提升的瓶颈。Sc-IML数据集创新性地采用涂鸦标注范式,对CASIAv2、Coverage等主流篡改检测数据集中的5,737张图像进行重新标注。标注过程中,专业标注人员基于第一印象使用CVAT工具快速勾勒篡改区域主体结构(红色标注篡改区域,蓝色标注真实区域),平均单图标注时间仅需20秒,较传统像素级标注效率提升69倍。为确保数据质量,标注结果经过三位评审人员的交叉验证,并通过结构化一致性损失等策略有效缓解了涂鸦标注的主观性问题。
特点
Sc-IML数据集开创性地构建了首个面向弱监督图像篡改定位的涂鸦标注基准,其核心特征体现在三方面:空间引导性方面,涂鸦标注保留了关键的空间分布线索,较图像级标签能提供更精确的区域指引;标注效率方面,平均20秒/图的标注速度实现了大规模数据集快速构建;场景覆盖性方面,数据集包含拼接、复制移动等多种篡改类型,并涵盖5,123张训练图像与614张测试图像,为模型泛化能力评估提供了坚实基础。特别值得注意的是,该数据集通过先验感知特征调制模块有效解决了涂鸦标注边界模糊的问题。
使用方法
该数据集支持端到端的弱监督篡改检测模型训练,典型使用流程包含三个关键阶段:特征提取阶段采用PVTv2骨干网络获取多尺度特征;先验整合阶段通过PFMM模块动态融合篡改区域与真实区域的先验知识,其中坐标注意力机制有效建模空间依赖关系;特征优化阶段则采用GAFM模块进行门控自适应特征融合,通过多分支通道分割策略增强特征判别力。训练过程中需联合优化四类损失函数:针对标注区域的偏交叉熵损失、维持结构一致性的自监督损失、增强上下文相关性的亲和力损失,以及基于置信度的熵最小化损失。这种多层次监督机制使模型在仅使用涂鸦标注的情况下,取得了超越全监督方法的跨域泛化性能。
背景与挑战
背景概述
Sc-IML数据集由Xinjiang University的Songlin Li、Guofeng Yu等研究人员于2025年提出,旨在解决图像篡改定位(Image Manipulation Localization, IML)领域中高质量像素级标注获取困难的问题。该数据集重新标注了包括CASIAv2、Coverage、Columbia和NIST16在内的主流IML数据集,共包含5,737张图像,标注形式为涂鸦(scribble)标签。Sc-IML的提出填补了弱监督IML领域在标注资源上的空白,显著提升了标注效率,标注时间仅为像素级标注的1/69。该数据集为开发弱监督IML方法提供了宝贵的空间线索,推动了相关领域的研究进展。
当前挑战
Sc-IML数据集面临的主要挑战包括:1) 领域问题挑战:涂鸦标注具有高度主观性,不同标注者对篡改区域的理解和标注可能存在显著差异,导致标注不一致,影响模型对篡改区域的准确识别和新数据的泛化能力;2) 构建过程挑战:涂鸦标签提供的像素级监督有限,模型对未标注区域的分类缺乏信心,导致预测不确定性。此外,篡改区域可能具有多样化的空间分布和微弱的视觉线索,传统的特征聚合或单尺度建模难以有效捕捉。
常用场景
经典使用场景
Sc-IML数据集在图像篡改定位(IML)领域中被广泛用于弱监督学习研究。该数据集通过提供涂鸦标注而非传统的像素级标注,显著降低了标注成本,同时保留了关键的空间信息。研究者利用该数据集开发新型弱监督算法,以解决在有限标注条件下实现高精度篡改区域定位的挑战。
解决学术问题
Sc-IML数据集有效缓解了IML领域对高成本像素级标注的依赖,解决了弱监督方法因缺乏空间线索导致的定位精度不足问题。其涂鸦标注形式在标注效率与监督信息量之间取得平衡,为开发兼顾性能与实用性的IML算法提供了新范式,推动了弱监督学习在多媒体取证领域的发展。
衍生相关工作
基于Sc-IML数据集衍生的SCAF框架已成为弱监督IML研究的标杆工作,其提出的先验感知特征调制模块(PFMM)和门控自适应融合模块(GAFM)被后续研究广泛借鉴。该工作还启发了跨模态涂鸦标注、不确定性正则化等研究方向,推动了IML领域弱监督方法的技术演进。
以上内容由遇见数据集搜集并总结生成



