Image splicing forgery detection combining coarse to refined convolutional neural network and adaptive clustering

时间：2019-12-23 12:57:22 阅读：116 评论：0 收藏：0 [点我收藏+]

粗到精的卷积神经网络与自适应聚类相结合的图像拼接篡改检测

研究方向：图像篡改检测

论文出处：ELSEVIER A类

学校：西安电子科技大学网络工程学院、重庆邮电大学计算机科学与技术学院

关键字：Splicing forgery detection、Convolutional neural networks、Adaptive clustering、Image-level CNN

论文提出的检测方法：提出的检测方法包括两部分，第一部分为一个粗到细的卷积神经网络（C2RNet），第二部分为自适应聚类。在第一部分中将粗的卷积神经网络称为C-CNN，细的神经网络称为R-CNN，两个网络分为两个阶段提取图像中篡改和未被篡改区域之间不同的属性，在此过程中为了降低运算量，采用Image-level的卷积网络来代替Patch-level的卷积网络。在这之后将网络输出的可疑篡改区域，应用自适应聚类算法进一步确定篡改的区域。

实验采用的数据集：CASIA，COLUMB，FORENSICS

实验结果：本文提出的检测算法与目前最好的算法相比，能够实现可观的效果。并且在多种篡改方式上都实现了良好的效果。

1.基础知识

????数字图像篡改分为两种类型：copy-move forgery（复制粘贴篡改）和splicing forgery（拼接篡改）。前者指的被篡改的部分来自本身的一部分，后者指的是被篡改的部分来自非本身的部分。拼接篡改比复制粘贴篡改的检测更加难。

????最新的一些研究提取不同的一些特征来鉴别图像是否被篡改，这些特征有lighting（光照）, shadows（阴影）, sensor noise（传感器噪声）, and camera reflections（相机反射原理）.

????拼接篡改的检测方法主要基于4类，分别为基本图像属性的检测，成像设备属性的检测，图像压缩属性的检测，哈希技术。这四类检测方法的局限性如下：

如果在拼接后应用了一些隐藏伪造的技术，例如整体模糊操作，则可能后导致检测失败。
如果设备的噪声强度较弱，则基本成像设备属性的检测方法可能失效。
基于图像压缩属性的检测方法只能检测JPEG格式的图像篡改。
基于哈希技术的检测方法依赖于原始未经篡改图像的哈希，则不能严格分类为盲伪造检测类型。

????卷积神经网络成功的两个原因，如下：

CNN框架利用了领域内的像素通常是高度相关联，采用分组的本地连接，而非所有像素单元之间使用一对一连接（大多数神经网络的情况）。
CNN体系结构采用特征共享，每个通道（特征图）都是在所有位置使用相同的卷积核通过卷积运算生成的。

2.网络框架结构及相应算法

2.1. 网络框架结构

技术图片

????上图种的上一部分为从粗到细的CNN网络，下一部分为自适应聚类算法。

????在上一部分，分为两个特征学习过程，第一个特征学习过程是基于粗CNN，能够粗略的确认在图像篡改区域和图像未篡改区域的差别，尤其是边缘。第二个特征学习过程是基于细CNN，能够进一步学习到必要的在图像篡改区域和图像未篡改区域的差别，即在粗CNN得到的边缘进一步筛选。

????在下一部分，在通过C2RNet得到最终更加准确的可疑篡改区域（Net_out）后，采用自适应聚类算法确定最终准确的篡改篡改区域（FD_Out），然后利用填充算法进行填充，得到最终结果。

2.2. C2RNet网络参数

2.2.1. 粗卷积神经网络（C-CNN）网络参数

????C-CNN是基于VGG-16，它包括13个卷积层，每个卷积层采用RELU激活函数，5个最大池化层，2个全连接层。

????数据的输入:图像块（image Patch）\(W_c×W_c\)（篡改图片和对应原始图片），论文中\(W_c\)设置为32，一共生成115000的patch标签作为篡改和115000patch标签作为非篡改。

????数据的输出：二分类问题，是包含篡改区域的块还是不包括篡改区域的块。

技术图片

2.2.2. 细卷积神经网络（R-CNN）网络参数

技术图片

????C-CNN输出的是可疑的篡改区域，这就意味着图片边缘附近可能存在一些不正确检测到的区域，这表明C-CNN学习到的结果需要进一步过滤掉，同时也说明了C-CNN网络中输入的Patch大小无法提供足够的局部信息来探索图片的差异。因此，可以通过级联一个精的CNN网络来滤除那些不准确的区域。

????R-CNN是基于VGG-19，它包括16个卷积层，5个最大池化层，3个全连接层。

????数据的输入:图像块（image Patch）\(W_r×W_r\)（为了使R-CNN获得更多足够的本地信息，\(W_r>W_c\),这些patch来自原始图像和可疑篡改区域），论文中\(W_c\)设置为96，一共生成115000的patch标签作为篡改和115000patch标签作为非篡改。

????数据的输出：二分类问题，是包含篡改区域的块还是不包括篡改区域的块。

2.2.3. 为了加快计算速度采用Image-level CNN

????图像被每个像素为中心的重叠的patch块，然后每个像素块输入到网络中进行训练。例如图像的大小为M×N，被分成每个patch的步幅为1，则重叠的patch块数数量为\((M-W+1)×（N-W+1）\)，让将这些图像patch按顺序输入到网络中。本文中为了加快计算速度，将patch-level CNN 转换成 image-level CNN。

????两者关系如下：

技术图片

????可疑观察到两者的结果是等效的，区别如下：

最大池化被替换成重叠的最大池化
在重叠最大池化后添加下采样步骤

2.2. 自适应聚类算法

????自适应聚类算法整体流程：技术图片

????由R-CNN网络得到的输出为Net_out，自适应聚类算法分为两步：自适应离群滤波（adaptive outlier filtering）和填充操作（convex full filling process）。

????具体算法如下：

技术图片

????具体算法解析如下：将Net_out分成\(C_1\)到\(C_n\)个簇，簇的中心分别为\(b_1\)到\(b_n\)，计算这几个簇的几何质心\(g_c\),通过欧氏距离计算\(b_i到g_c\)的距离，记为\(d_igc\).通过下面公式在计算这些欧式距离的均值\(\overline{d_gc}\)，通过下面公式计算出标准偏差\(sd\)

技术图片

????如果\(sd\)满足如下条件：

技术图片

????则所有的\(c_1\)到\(c_n\)全部作为确定的篡改的区域记为\(\widetilde{Net-out}\)。

????如果\(sd\)不满足，则说明一小部分簇并非篡改区域，取一个阈值\(t_h\)，将每个簇中包括像素最多的\(d_gc\)作为基准，计算各个簇到基准的欧氏距离，若欧氏距离小于\(t_h\)，则认为该簇为篡改区域。

????最后用填充算法对符合条件的簇进行填充为一个区域，生成FD_out。

????具体例子如下

技术图片

????如图，图片被分成了四个簇，每个簇的质心为黑色块（a），计算几何质心\(gc\)，分别计算每个簇质心到几何质心的欧氏距离\(d_igc\)（b），计算标准偏差\(sd\)，发现\(sd\)不满足条件，选择每个簇包括像素最多的簇的\(d_igc\)为基准，此例为\(C_1\)，计算其它簇到基准的欧式距离，若大于阈值，该簇为非篡改区域，将剩余的簇填充为一个区域，即为最终篡改区域FD_out。