intra-class / inter-class loss

因为疫情的原因，在家滞留了大半年，期间在家用一个半月的时间写完了硕士毕业论文，现在算是慢慢闲下来了，终于可以随便看看paper写写博客了。找了一篇最近预发表的CNN综述(2020年4月)，通篇读下来还是发现了一些基础知识上的盲区，比如分类问题上的loss除了有最常见的交叉熵，还有进一步考虑类内距离和类间距离的loss，主要用于人脸识别和ReID等领域。下面针对这方面的工作做一些归纳和记录。

问题概述

在回归问题上，ground truth是连续值，因此用L1距离或L2距离就能比较合理地度量预测值和ground truth之间的偏差。由此形成的优化空间也比较平滑，易于朝着正确的方向收敛。但是在分类问题上，ground truth是离散值，经过softmax处理后变成了one-hot编码，此时编码与编码之间的L1/L2距离是没有意义的，所以通常用交叉熵来度量预测值和ground truth这两个分布之间的近似程度。
交叉熵也被称为softmax loss，模型最后一层softmax的输入x经过$e^x$处理并归一化后，大的值会更大，小的值会更小，相当于强化了类与类之间的分离，形成大的类间距离，这是有助于进行分类的。
$L_{cross\;entropy}(x, class)=-log\;p_{class}=-log(\frac{e^{x[class]}}{\sum_j e^{x[j]}}\;)$
如下图，把用于MNIST手写体识别的卷积网络最后一层的feature维度设为2，由此可以在二维平面上显示所属不同类别的feature的空间分布情况。可以看到，不同类之间有着明显的间隔，非常易于分类。但另一方面，虽然类间距离大了，但类内距离也很大，每一类的低维流形（manifold）有着较大的方差，通俗的来说就是散点分布比较广泛，不紧凑。这对于普通的ImageNet分类这种问题影响不大，但对于人脸识别这种需要identification和verification的任务来说，具有很大的影响。具体的来说，人脸识别（identification）是要把一张输入的人脸图抽出来的feature分成不同的身份（identity），即分成不同的类，底库中有多少个ID，就有着多少个类。它要求类与类之间的距离尽可能地远，即类间距离（inter-personal variations）大，间隔越大越清晰，才能分得越准确，减小误识率（false accept rate）。而人脸验证（verification）则是要判断来自同一个人的两张人脸feature，是否会被正确分类成同一个ID，是一个二分类问题。它要求属于同一类的feature尽可能地靠得近，即类内距离（intra-personal variations）小，分布地紧凑（compactness），才能提高准确率（true positive rate）。
如下图，是MegaFace数据集中的样本，左边是属于同一个人A的不同照片，右边是不同人（A、B、C、D等）的照片。identification的过程是在训练时把ABCD等的人脸图通过CNN提取feature，映射成低维空间上的对应向量；verification的过程是在测试时把A的人脸图的feature，同底库中A的人脸feature做对比，看是否靠得足够近以判断它们是属于同一个人。如果采用了普通的softmax loss，类间距离虽然有较为清晰的界限，易于identification，但类内距离较大，不易于verification。下图是一些典型的出错场景。False accept，本来不是同一个人，错误地被判断成是同一个人，说明它们各自的feature没有分得足够开；False reject，本来是同一个人，错误地被判断成不是同一个人，说明这个人的多个feature不够紧凑。下面以人脸识别为任务场景，介绍常用的改善类间距离和类内距离的几种经典loss。

Contrastive loss（DeepID 2/DeepID 2+/DeepID 3）

主要思想

该loss最早是由2006年的一篇CVPR以降维方法的形式所提出[1]，随后在2014年被商汤的DeepID 2[2]、DeepID 2+[3]、DeepID 3[4]系列使用在深度学习人脸识别领域上。中心思想就是拉近同类点的距离，推远非同类点的距离。麻烦一点的是，需要人为挑选出同类和非同类的图像对（O($n^2$)），来提供先验信息。

具体形式

上式中，$f$代表从人脸图提取出的特征矢量，当它们来自同一个人时（$y_{ij}=1$），取两个特征的L2距离作为loss值，意味着该距离在优化时会越来越小；当它们来自不同的两个人时（$y_{ij}=-1$），同样是取两个特征的L2距离，但是前面加了负号，意味着优化时该距离越大越好。同时，针对非同类距离还做了阈值m的截断处理，也就是说当距离远到大过m时，就忽略该项，这样做相当于只考虑周边临近点的影响，而不是盲目地排斥所有的非同类点，鲁棒性会更强，计算量也更小。
下图是该loss的曲线图，红色曲线代表同类点间的loss，蓝色曲线代表非同类点的。作者将其类比成弹簧-振子系统，具有很直观的物理意义，很符合直觉。

实验过程

想想如果只用contrastive loss会怎样？同类点会不断地相互抱团吸引，领域内的非同类点相互排斥，最终会使得同类点形成方差极小的团簇。但是，这里忽略了一个重要的点，就是不同类的团簇之间没有做距离限制，没有明显的分类界限，团簇与团簇之间可能挨得很近，甚至互相有重叠。这种情况下，verification会做得很好，但是identification就没法做了。在DeepID 2中，为了兼顾这两种任务，将适合加大类间距离的softmax loss，与适合减小类内距离的contrastive loss相结合，取权重$\lambda$来做平衡，并分别命名为identification和verification loss。下图是不同$\lambda$下，网络所提取的六个ID的高维特征示意图，为了清晰起见只用了前两个主分量来画图。可以看到，$\lambda=0$时只用了softmax loss，不同类的团簇之间易于区分，但同类的团簇过于分散；$\lambda=\infty$时只用了contrastive loss，同类团簇很集中，但不同类团簇之间重叠区域较大，不易于区分；$\lambda=0.05$时达到了较好的折衷，有较大的类间距离和较小的类内距离，此时的人脸识别任务能有较好的效果。
最后，展示一下contrastive loss原文[1]里一个非常精美的图。这里将其作为一个降维方法，它能够把不同亮度、不同角度下的同一架飞机的图片，均匀地映射成低维3d空间上的流形，且连续位置点上的特征对应着连续变化角度的输入。

Triplet loss (FaceNet)

主要思想

前面的Contrastive loss在优化时针对类内距离和类间距离是分开处理的，二者之间没有关联，各优化各的。接下来要介绍的Triplet loss，把类内和类间距离协同考虑，不要求它们各自达到最小和最大，只要求类内距离小于类间距离就可以，为安全起见，二者之间还设了一个余量空间（margin）。直观地感受，优化标准变得更加普适和明确了。同时，在Contrastive loss中，有O($n^2$)个图像对的loss需要backward，但是在这里，只需要在同类中找出距离最大的、在非同类中找出距离最小的来计算loss，一个batch中只需要一次backward就可以。

具体形式

对于一张任意的候选人脸$x_i^a$，所有与之同类的人脸$x_i^p$（positive），以及所有与之非同类的人脸$x_i^n$（negative），需要满足类内距离加余量$\alpha$小于类间距离，即有以下的目标关系：上式经过移项调整，就可得统一的loss形式：但在实际优化过程中，如果像contrastive loss那样遍历所有的图像对来计算上述loss，图像对中有大量的easy case，不等式条件很容易就会被满足，从而导致收敛缓慢。所以需要人为挑选不满足条件的hard case，才能推动优化朝着正确的方向前进。针对$x_i^a$，需要在同类样本中找到hard positive $x_i^p$使得有最大的类内距离；需要在非同类样本中找到hard negative $x_i^n$使得有最小的类间距离：

实验过程

在上一节中提到，需要找到两个极值的类距离，如果对象是整个训练集，计算一个样本$x_i^a$与其它所有样本的距离需要O(n)次，排序还需要O(nlogn)次操作，不预先储存的话还需要在所有n个样本上重复上述操作，实际是不可行的。同时还可能会受到误标的噪声数据影响。
在FaceNet[5]中，提出了两种解决方法。一种是离线计算并储存法，每迭代n步计算一次类距离的极值，而且还只是在训练集的子集上。另一种是在线mini-batch计算法，在大小约为1800的batch上计算类距离极值，计算量得以简化。
另外文中还发现，在训练初期，只计算同类样本的距离会使得收敛更稳定。在训练中后期，才慢慢加入非同类样本，而且为了防止陷入局部次优点，加入的不是hardest negative样本（考虑到会受误标数据的影响），而是semi-hard negative样本$x_i^n$，这部分样本可能处在余量空间内，但依然能有效促进优化的进行。下图是不同pose不同光照下的效果图，每一行左右两张图来自同一个人，数字代表两两之间的特征距离。当阈值设为1.1时，人脸识别的结果就是正确的，表明当前的模型对pose和光照的鲁棒性还是较强的。

5. FaceNet: FaceNet: A Unified Embedding for Face Recognition and Clustering

Center loss

主要思想

前面介绍的两种loss，是基于两个和三个“图像对”指示出优化的梯度方向，虽然合理地避免了在庞大数据集上计算梯度，但是需要计算的图像对的数目很大，同时优化过程也不是很稳定和高效，计算复杂度比较高。ECCV 2016提出的center loss[6]，没有采用图像对的策略，而是定义出每一类特征的中心点，根据每一类样本与对应中心点之间的距离作为类内距离来优化，与contrastive loss的优化目标很相似，只不过不再需要人为提取同类和不同类的图像对，优化过程和普通SGD中的普通loss没什么区别，减小了计算复杂度。

具体形式

上式中，m代表batch样本数目，$c_{yi}$即代表第i类特征的中心点。在初始化时，它由网络所提取的第i类特征矢量取平均得来，在随后的迭代过程中，由于网络的权重参数不断地在更新，每一类的特征矢量也在逐渐变化，为了不浪费之前迭代步中所计算出的中心点，并没有重新取平均求中心点，而是对中心点以梯度下降的方式更新：其中，梯度是根据损失值$L_c$对中心点$c_{yi}$求导得来：
$\Delta c_j = \frac{\partial L_c}{\partial c_{yj}} = \sum_{i=1}^m (c_{yj}-x_i)$
同contrastive loss一样，center loss只关注了减小类内距离，因此还需要softmax loss来辅助做类间分离，二者之间用$\lambda$系数作平衡。最终总loss如下：

实验过程

计算类的中心点时，如果对象是整个训练集，计算量会很大。因此在原文中，采取了与triplet loss相同的mini-batch策略，只在一个batch的样本集上取平均，往后的每次迭代都用梯度更新的方式来不断修正中心点的位置。
为了平衡softmax loss和center loss，原文中同样也进行了权重的调整，不同$\lambda$下的特征分布如下图，可见起到的作用与contrastive loss的相同。

6. Center loss原文: A Discriminative Feature Learning Approach for Deep Face Recognition

Large-Margin Softmax loss

主要思想

从名字就可以看出，该loss是softmax loss的加强版。在前面，我们介绍过softmax loss是通过softmax function刻意推远了类间距离，但这种推远也只是使类与类之间产生间隔，并没有像triplet loss那样留有优化空间上的余量。large-margin softmax loss沿用softmax loss的形式，但拓展到了更一般的形式，不仅要使类与类之间产生间隔，还要求这种间隔能成倍地扩大，形成巨大的类间“鸿沟”。这样一方面使得类间距离增大，另一方面相比较之下类内距离自然而然地就显小了。同时，由于刻意要求巨大的类间距离，优化目标变得很困难，使得过拟合的风险降低。

具体形式

普通的softmax loss形式如下：视网络最后的全连接层为线性分类器，其参数为$W$，则特征$f$可展开为矢量相乘形式：把矢量点积按照向量模和夹角相乘的形式展开：那么softmax loss可重新写为为了在不同类之间产生间隔，需要使得问题的关键来了，想要更严格地控制类间距离，可针对上式做一个缩放，在余弦角上施加正整数因子m，m越大，缩放地更严重，不等式条件更严格，类间距离就越大。因此，large-margin softmax loss的公式为其中，上式中，k是[0, m-1]之间的整数。两种loss的曲线对比如下图，可以看到softmax loss是m=1时的特例，当m大于1时，限制条件要更加严格。从特征分布示意图也可以看出，large-margin softmax loss的类间距离要更大。

实验过程

在原文[7]的实验中，作者认为L-Softmax loss的收敛难度太高，因此在训练的初期，为了加速收敛，采用原始的softmax loss作为起点，在后期逐渐地过渡到m大于1的L-Softmax loss上。上式中，训练初期$\lambda$很大，相当于softmax loss，随后慢慢减小到接近于0（但不会是0）的小数，此时才成为L-Softmax loss。在不同的缩放因子m下，MNIST手写体的特征分布图如下：可以看到，类间距离确实增大了，但感觉类内距离还是很大，同类流形的方差大，不紧凑。虽然原文中声称the minimum inter-class distance being greater than the maximum intra-class distance.，但我个人感觉这点效果还是没有达到的。

7. L-Softmax loss原文: Large-Margin Softmax Loss for Convolutional Neural Networks

问题概述

Contrastive loss（DeepID 2/DeepID 2+/DeepID 3）

主要思想

具体形式

实验过程

Triplet loss (FaceNet)

主要思想

具体形式

实验过程

Center loss

主要思想

具体形式

实验过程

Large-Margin Softmax loss

主要思想

具体形式

实验过程

「评论区」：