热爱科技的朋友们，欢迎点击关注

论文：Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation

会议：CVPR2018

问题①：这篇文章做什么的？

自答：这篇文章是CVPR2018上一篇关于弱监督语义分割的文章，也就是，数据集告诉你一堆图片以及这些图片里面有什么，你使用深度学习的方法将图片中每一个物体的区域分割出来。

问题②：这篇文章主要思路是什么？

自答：这篇文章首先通过一般的CAM方法生成分割seed cues（前面文章有介绍），然后利用这些seed cues中已经标记标签的pixel计算相似度标签，利用卷积神经网络提取图片每个像素的特征，计算这些特征之间的相似度，使用标签计算得到的相似度作为监督信息，从而训练网络，最后得到比较好的特征提取网络，使得图片中属于相同类别的像素的特征之间相似度较高，而不同类的像素相似度较低。

问题③：这篇文章突出特点是什么？

自答：我觉得是1）通过CAM计算相似度标签的方式，2）使用像素间相似度进行分割的算法。

1、总体架构

2、架构构成

第一步、计算CAM

目标类：

背景类：

此中，α=16(4-24) à 根据Mc得到

也就是将feature maps 取最大值得到一个map，再归一化，1减去该feature map

如下图展示CAM方法的结果:

下图是生成的Seed cues（粉色和黑色区域是已确定标签区域）：

第二步、生成语义相似度标签Semantic Affinity Labels

（1）设定半径为5，计算像素周围的一个圆内的像素与该像素之间（pixel pair）的相似度标签W。

计算方法图解：

计算方法公式：

如图中所示，若pixel pair中有一个像素为未确定标签的像素，则忽略不考虑；若pixel pair中两个像素属于同一个类别则记为1，属于不同类别则记为0;如上图所示，存在于Foreground和Background的pixel,为红色和黑色的点，存在于Netural的点为绿色。

通过上面方法计算的Wij,作为相似度标签，Wij保存着位置相近的pixel pairs属于相同的class或者不同的class的信息。

第三步、AffinityNet Training

前提理论：位置相近的pixel更有可能属于同一个class；从确定的定位信息传播类别信息，处理物体区域假阳性和缺失块，生成训练标签。

(1)NetWork:

图片通过网络生成一堆features,faff 表示，这些feature maps中含有丰富的上下文信息，图片中每一个pixel对应着faff一个channel长的向量V,类别相同的pixel对应的V的内容更接近。

(2)如何训练？

1)首先，生成训练监督信息

2)需要什么？知道哪些pixel具有相同的或者不同的标签。

通过CAM计算得到相似度标签，可得到上图中的关系，相同标签为同颜色，不同标签为不同颜色，由相同label（同颜色pixel）和不同label（不同颜色pixel）的pixel pairs之间的相关性，通过训练指导不确定label（橙色pixel）与确定label 的pixel pairs之间的相关性。

这是一种通过周围有监督训练部分无监督的数据的一种方法。

（3）训练损失函数

(1)定义相关点集合P:d为欧式距离，γ为5