论文笔记|PSCC-Net：Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Localization

缩写	全称	翻译
IMDL	Image Manipulation Detection and Localization	图像篡改检测与定位

1 Introduction

图像篡改类型：

现有IMDL问题：

本文贡献：

近期研究侧重于像素级篡改定位，而忽略了图像级检测的重要性。

本研究则在训练中同时利用篡改图像和原始图像，并同时考虑图像篡改的检测和定位。

多数方法在检测特定伪造类型时表现良好，但现实中伪造类型通常无法预知且同时存在多种伪造手段。

J-LSTM和H-LSTM集成了LSTM和CNN来捕获边界判别特征，由于基于块的设计，这两种方法都很耗时，并且可检测区域的大小受到预设块大小的限制。

RGB-N采用隐写分析丰富模型与Faster R-CNN，但仅能提供边界框而非分割掩码。

ManTra-Net通过特征学习识别385种已知篡改类型，并将问题转化为异常检测；SPAN在ManTra-Net基础上，通过局部自注意力模块与金字塔传播进一步建模空间相关性。但由于仅考虑局部区域相关性，ManTra-Net和SPAN未能充分利用空间相关性，导致泛化能力受限。

以由粗到精的方式处理具有挑战性的任务。

本文提出一种密集连接的金字塔结构，通过自下而上逐步精炼处理掩码，每个预测掩码成为下一尺度估计的先验信息。

注意力机制可分为两类：空间注意力和通道注意力。

本研究提出的统一SCCM模型，能在同一特征上同时探索空间域与特征通道中的图像相关性与差异性。
此外，基于维度缩减设计，SCCM可适配任意尺寸的低级与高级特征。

alt text

Top-Down Path

每个掩码的预测都应基于全部局部与全局特征以提升精度。
除末级预测掩码外，其余掩码均作为下一级预测的先验信息。
自顶向下路径完成后，将提取四个尺度的操纵特征，随后通过自底向上路径执行操纵检测与定位。

Bottom-Up Path

$M_{n-1} = f_{n-1}(\tau(M_n) \cdot F_{n-1}) , n=2,3,4$

首先预测最粗尺度上的掩码，以根据当前可用信息定位可能被伪造的区域。
随后在更细尺度上的预测可以利用先前的掩码，并更加关注这些选定的区域。

在所有尺度上应用全监督来指导掩码估计。

alt text

通过空间注意力机制，基于像素间上下文关联性聚合像素级特征；
同时运用通道注意力机制，基于通道间关联性整合特征图。