29

对抗攻击之利用水印生成对抗样本

 4 years ago
source link: https://mp.weixin.qq.com/s/Em2wjohjC8I8AvvoDMmB9Q
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
640?wx_fmt=gif

本文为52CV粉丝鬼道投稿,介绍了对抗学习领域最新的工作Adv-watermark。

640?wx_fmt=png

论文标题:Adv-watermark: A Novel Watermark Perturbation for Adversarial Examples

论文链接:https://arxiv.org/pdf/2008.01919.pdf

对抗样本生成的方法有很多,但它们都是在原图像上添加对抗扰动。本文提出的生成对抗样本的的方法很有趣,它是利用水印的不可察觉性,在水印上做文章从而生成对抗样本,即在干净图像中添加有意义的水印也可以攻击深度神经网络模型。如下图所示是分别是字母水印对抗样本和logo水印的对抗样本。

640?wx_fmt=png

1.论文的贡献

本文的贡献可以归结如下三点:

  • 作者提出了一种新的对抗样本算法Adv-watermark。水印同时具有水印特性(版权保护)和对抗样本的功能(导致训练好的模型误分类),需要注意的一点在于除了水印区域并没有其它的对抗扰动。

  • 作者提出一种基于Adv-watermark的优化算法论文称为BHE。该优化方法采用基于种群的全局搜索策略方式生成对抗性样本。

  • 实验结果显示,当水印大小为宿主图像大小的4/9(个人感觉扰动的像素过多,有点违背对抗样本的定义)时,它可以获得97%以上的攻击成功率。水印大小是宿主图像大小的1/16,也可以达到65%左右的攻击成功率。

2.算法介绍

2.1对抗水印

论文中使用除了R,G,B以外还有alpha共四个混合通道来生成对抗水印,通道是指背景图像中前景区域的透明度。论文中用表示alpha通道的值,表示尺寸为的宿主图像(称为宿主图片很准确即为无对抗扰动的图片),表示尺寸为的水印图像,表示生成的图像,当,时,其生成对抗水印公式为:

当 , 时,计算公式为:

其中表示图像x,下标, 为表示像素位置,,表示水印图像嵌入的位置。作者不仅使用了图像水印,而且还使用了文本水印。对于文本水印,首先将文本转换为图像,然后对其进行处理。对于图像水印,使用了加州大学伯克利分校、芝加哥大学、麻省理工学院、剑桥大学和斯坦福大学这几所名校的标志水印。上面公式很好理解,如下图所示为上述原理和公式的图示。

640?wx_fmt=other

2.2问题凝练

论文中将对抗扰动伪装成水印,以实现隐蔽性,并且对抗样本的生成只与水印的位置和透明度有关。对抗水印图像的生成可以形式化为一个有约束的优化问题。假设宿主图像为,分类模型为,的正确分类类别为,其中是属于类的概率,同时设为水印图像,为生成水印函数。它将水印图像嵌入到宿主图像的位置,,和依赖于,,。在无目标攻击的情况下,可以将生成对抗样本的目标转化为寻找最优解,具体的优化公式如下所示:

该问题涉及两组参数,第一组参数是水印在宿主图像中的位置;第二组参数是水印的透明度。在宿主图像中嵌入可看作是一个实际扰动的对抗性水印,可以对局部进行修改主机映像的信息。对抗性水印扰动允许干净图像成为对抗样本。

对抗水印在不影响图像视觉效果的前提下,干扰决定图像分类的重要局部区域,攻击训练良好的分类模型。如下图所示为梯度加权类激活映射生成的热力图,可以清楚地看到Resnet101将输入图像预测为相应的正确类。

将对抗水印嵌入到图像中,可以改变生成的热图上概率分布。其中图中的第一行是原始图像(通过Resnet101正确分类)及其对应的热力图,下排是带有可见水印的对抗性图像及其对应的热图。

640?wx_fmt=png

2.3优化算法BHE

论文中提出了一种新的优化算法为BHE。该方法是一种启发式随机搜索算法,可用于求解多元函数的全局最小值。如下图所示,BHE包括四部分,本文接下来会依次展开说明。

640?wx_fmt=png

BHE是一种基于群体进化的优化算法,个人感觉BHE这就是一种普通的粒子群算法,适合求解非凸函数的最优解或者是局部最优解。每个解决方案都是一个群体的个体。其中、和元素被认为是其基因。

设表示第代人口中的第个个体,并且表示的第个基因。所以会有如下公式:

在该公式中,为初始群体中第个个体的第个基因,为第个基因的最小值,为第基因的最大值。

Basin Hopping是一种随机优化算法。在每次迭代过程中,BH生成一些随机扰动的新坐标,然后找到局部极小值,最后根据最小函数值接受或拒绝新坐标,具体的计算公式如下所示:

下图给出了BHE算法的具体流程:

640?wx_fmt=png

3. 实验结果 该论文的实验量很大,从各个角度对论文中所提出的算法进行评估。下表为图像水印和文本水印的平均攻击成功率。可以看出论文中所提出的BHE 可以获得较高的攻击成功率。对于大学标志水印,当水印大小设置为宿主图像大小的4/9时,攻击成功率可达97%左右。当水印大小设置为宿主图像大小的1/16 时,攻击率也可以达到69%。

640?wx_fmt=png

 下表为不同水印的攻击结果比较。可以看出在限制了攻击区域情况下,作者所提出的攻击方法也能获得比较不错的效果。

640?wx_fmt=png

  下表为黑盒攻击方法攻击成功率的,作者所提的攻击方法可以获得平均攻击成功率高达88%,是所有攻击方法里效果最好的。

640?wx_fmt=png

下表为图像防御方法的比较,将生成的对抗样本、缩放比例为1/4的“ACMMM2020”图像水印和字体为“28”的红色文本水印注入到原始图像数据集中,并分别对它们重新训练了三个Resnet101,可以看出用该对抗样本进行对抗训练的模型具有更强的鲁棒性。

640?wx_fmt=png

 下图为各种电视台标识的对抗样本,其中原始的类标签是黑色的,而对抗样本的类标签是红色的。将logo的嵌入位置限制在主机图像的右上角,然后使用该论文提出的方法进行生成,可以看出对抗水印在物理世界中更为现实和常见。

640?wx_fmt=png

下图为对抗水印和正常水印的比较图。红色曲线表示对抗水印,蓝色曲线表示正常水印。可以看出红色曲线是随机选取的30幅带有对抗性水印的图像的平均结果,蓝色曲线是30幅具有正常水印的相同图像的平均结果。很明显,水印扰动随着层次的增加而逐渐增大。

640?wx_fmt=png

 目前还未发现该文有开源代码。

640?wx_fmt=png

备注:对抗学习

640?wx_fmt=jpeg

对抗学习交流群

交流对抗学习等最新资讯,若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:[email protected]

网站:www.52cv.net

640?wx_fmt=jpeg

在看,让更多人看到  640?wx_fmt=other


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK