Abstract

具有数百万个参数的深度神经网络可能由于过拟合而泛化能力较差。为了缓解这个问题，我们提出了一种新的正则化方法来惩罚相似样本之间的预测分布。特别地，我们在训练过程中提取同一标签的不同样本之间的预测分布。这使得单一网络(即自我认知蒸馏)的黑暗知识(即关于错误预测的知识)规范化，迫使它以一种分类的方式产生更有意义和更一致的预测。因此，它减轻了过度自信的预测，并减少了内部阶层的变化。在各种图像分类任务上的实验结果表明，该方法简单而功能强大，不仅能显著提高现代卷积神经网络的泛化能力，而且能提高其标定性能。

Introduction

深度神经网络(dnn)在许多计算机视觉任务上都取得了最先进的性能，如图像分类[19]、生成[4]和分割[18]。随着训练数据集规模的增加，dnn的规模(即参数的数量)也会随之增大，以有效地处理如此大的数据集。然而，具有数百万个参数的网络可能会出现过拟合和泛化能力差的问题[36,55]。为了解决这一问题，文献中研究了许多正则化策略:早期停止[3]、L1/ l2正则化[35]、dropout[42]、批量归一化[40]和数据增广[8]。

正则化dnn的预测分布是有效的，因为它包含了最简洁的模型知识。在这方面，文献中提出了标签平滑[32,43]、熵最大化[13,36]和基于角度边缘的方法[5,58]等策略。在解决网络标定[16]、新颖性检测[27]、强化学习探索[17]等相关问题上也有一定的影响。在本文中，我们利用黑暗知识[22]的概念，即dnn对错误预测的知识，开发一种新的深度模型输出正则化器。它的重要性首先由所谓的知识蒸馏(KD)[22]得到证明，并在随后的许多著作中得到研究[1,39,41,54]。

而相关著作[15,21]利用知识蒸馏的方法将教师网络中所学到的黑暗知识转移到学生网络中，我们在训练单一网络的过程中对黑暗知识本身进行了规则化，即自我知识蒸馏[53,57]。具体来说，我们提出了一种新的正则化技术，称为类自知识蒸馏(CS-KD)，它匹配或蒸馏dnn在相同标签的不同样本之间的预测分布，如图1(a)所示。

可以预期，本文提出的正则化方法迫使dnn在样本属于同一类的情况下产生类似的错误预测，而传统的交叉熵损失没有考虑预测分布上的这种一致性。此外，它可以同时实现两个理想的目标:防止过度自信的预测和减少阶级内部的变化。我们注意到，文献中已经通过不同的方法对它们进行了研究，即分别是熵正则化[13,32,36,43]和基于边缘的方法[5,58]，而我们使用单一的原则来实现这两种方法。我们使用深度卷积神经网络证明了我们简单而强大的正则化方法的有效性，例如ResNet[19]和DenseNet[23]训练用于各种数据集上的图像分类任务，包括cifa -100[26]、TinyImageNet1、CUB-200-2011[46]、Stanford Dogs[25]、MIT67[38]和ImageNet[10]。在我们的实验中，我们的方法的前1错误率始终低于先前的输出正则化方法，如基于角边缘的方法[5,58]和熵正则化方法[13,32,36,43]。特别是前5个错误率和预期校准误差[16]的增益总体上更大，这证实了我们的方法确实使预测分布更有意义。我们还发现，我们的方法的前1位错误率总体上低于最近的自蒸馏方法[53,57]。此外，我们通过将我们的方法与其他类型的正则化方法相结合来提高性能，例如Mixup正则化[56]和原始的KD方法[22]，来研究我们的方法的变体。例如，我们在ResNet-18和ResNet10下使用CUB-200-2011数据集，将Mixup的top-1错误率从37.09%提高到30.71%，KD的错误率从39.32%提高到34.47%。

Class-wise self-knowledge distillation

我们注意到在文献[2,7,24,31,37,44,53]中已经研究了使用一致性正则化器的想法。以往的方法都是将原始输入和扰动输入的输出分布进行正则化，使之趋于相似，而我们的方法则要求具有同一类的不同样本之间的一致性。据我们所知，还没有研究过这样一种基于类的正规化。我们认为，本文提出的方法可能会在其他应用中获得更广泛的应用，例如人脸识别[11,58]和图像检索[45]。2. 在本节中，我们介绍了一种新的正则化技术——类自认识蒸馏(CSKD)。在本文中，我们将重点放在完全监督分类任务上，并将x∈x表示为输入，y∈y ={1，…， C}作为它的基本真理标签。假设使用softmax分类器对一个后验预测分布进行建模，即给定输入x，预测分布为:

式中，fi为第i类被θ参数化的dnn的logit, T > 0为温度标度参数。

2.1. Class-wise regularization

我们考虑匹配同一类样本的预测分布，这将从模型本身提炼出它们的黑暗知识。为此，我们提出了一个类正则化损失，在同一类中强制一致的预测分布。在形式上，给定一个输入x和另一个随机抽样输入x '具有相同的标号y，定义如下:

式中KL表示Kullback-Leibler (KL)散度，θ为参数θ的固定拷贝。根据Miyato等人[31]的建议，梯度不通过θ传播，以避免模型坍塌问题。与原来的知识精馏方法相似(KD;[22])，建议的亏损Lcls符合两个预测。虽然原始KD与来自两个网络的单个样本的预测相匹配，但我们对来自一个网络的不同样本进行预测，即自我认识蒸馏。即LCS-KD训练总损失定义如下:

式中LCE为标准交叉熵损失，λcls >为类正则化的损失权值。注意，我们把温度T2的平方乘以原来的KD[22]。基于LCS-KD的完整训练过程在算法1中进行了总结。

2.2. Effects of class-wise regularization

提出的CS-KD可以说是实现两个目标的最简单的方法，通过一个单一的机制，防止过度自信的预测和减少类内的变化。为了避免过度自信的预测，它利用其他样本的模型预测作为软标签。它比生成“人工”软标签的标签平滑方法更“真实”[32,43]。此外，我们的直接最小化两个logit之间的距离在同一类，它将减少内部的变化。

我们也检查了所提出的方法是否迫使dnn产生有意义的预测。为此，我们研究了使用标准交叉熵损失和拟议的CS-KD损失在cifar100数据集[26]上训练的PreAct ResNet-18[20]的softmax评分中的预测值，即P(y|x)。具体来说，我们分析了CIFAR100数据集中两个具体错误分类样本的预测。如图1(b)所示，CS-KD不仅放松了过度自信的预测，而且提高了与ground-truth类相关的类的预测值。这意味着CS-KD通过迫使dnn对类似的输入产生类似的预测来诱导有意义的预测。为了评估预测质量，我们还报告了在交叉熵和我们的方法经常错误分类的样本上的预测类和地基真相类上的softmax分数的对数概率。如图2(a)所示，与交叉熵方法相比，我们的方法对错误分类的样本产生了更少的自信预测。有趣的是，我们的方法增加了误分类样本的ground-truth分数，如图2(b)所示。在我们的实验中，我们发现，通过强制DNNs产生这样有意义的预测，可以提高分类精度和校准效果(见3.2和3.4节)。

Experiments

3.1. Experimental setup

数据集。为了演示我们的方法在数据多样性的一般情况下，我们考虑了各种图像分类任务，包括传统分类任务和细粒度分类任务具体来说，我们使用CIFAR100[26]和TinyImageNet3数据集进行常规分类任务，使用CUB-200-2011[46]、Stanford Dogs[25]和MIT67[38]数据集进行细粒度分类任务。与传统的分类任务相比，细粒度图像分类任务在视觉上具有相似的类，并且每个类包含更少的训练样本。ImageNet[10]用于大规模的分类任务。

网络架构。我们考虑了两种最先进的卷积神经网络架构:ResNet[19]和DenseNet[23]。我们使用标准的ResNet-18 64滤镜和DenseNet-121 32增长速度的图像尺寸224×224。对于cifa100和TinyImageNet，我们使用PreAct ResNet-18[20]，它使用内核大小3×3、strides 1和padding 1来修改第一个卷积layer4，而不是通过跟随[56]来修改图像大小32×32的内核大小7 × 7、strides 2和padding 3。我们使用DenseNet-BC结构[23]，对网络的第一卷积层也进行了与PreAct ResNet-18相同的修改，图像尺寸为32 × 32。

超参数。所有的网络都是从零开始训练，并通过随机梯度下降(SGD)进行优化，动量为0.9，权值衰减0.0001，初始学习速率为0.1。所有数据集在epoch 100和150之后的学习速率除以10，总的epoch为200。我们将常规任务的批大小设置为128，细粒度分类任务的批大小设置为32。我们对ImageNet[10]使用标准的数据扩充技术，即翻转和随机裁剪。对于我们的方法，温度T取{1,4}，失重λcls取{1,2,3,4}。选择最优的参数以最小化验证集的前1错误率。在补充材料中提供了关于超参数T和λcl的更详细的消融研究。

Baselines。我们将我们的方法与先前的正则化方法，如基于角边缘的方法[5,58]、熵正则化方法和自蒸馏方法进行了比较。它们也规范了像我们这样的预测分布。

AdaCos[58]。5AdaCos动态缩放训练样本和相应的类中心向量之间的余弦相似度以最大化角裕度。
Virtual-softmax[5]。virtual -softmax注入了一个额外的虚拟类来最大化角裕度。
Maximum-entropy13,36]。最大熵是一种典型的熵正则化，它使预测分布的熵值最大化。
Label-smoothing[32,43]。标签平滑使用软标签，软标签是一热标签的加权平均，并均匀分布。
DDGSD[53]。数据失真引导自蒸馏(data distortion guided self-精馏，DDGSD)是一种一致性正则化技术，它迫使不同增强版本的数据输出保持一致。
byot[57]。做你自己的老师(BYOT)将网络中较深层的知识转移到浅层的知识中。

评估指标。为了进行评估，我们衡量以下指标：

Top-1 / 5 error rate：top-k错误率是正确标签不在top-k置信度范围内的测试样本所占的比例。我们测量top-1和top-5错误率来评估泛化性能。
Expected Calibration Error (ECE)：ECE[16,33]近似于置信度和准确性之间的期望差。它是通过将预测划分到M个等间隔的bins中，并对bins的置信度和准确性差进行加权平均来计算的。
Recall at k (R@k)：回想一下，k是在特征空间的k个近邻中至少有一个来自同一类的测试样本的百分比。为了度量两个样本之间的距离，我们使用倒数第二层的集合特征之间的L2distance。我们比较k = 1分时的回忆率，以评估学习特征的类内变化。

3.2. Classification accuracy

与输出正则化方法的比较。通过与Virtual-softmax、AdaCos、Maximum-entropy和Label-smoothing在各种图像分类任务上的比较，我们测量了所提出方法(由CS-KD指出)的top-1错误率。表1显示CS-KD始终优于其他基线。特别是CS-KD在CUB-200-2011数据集下，交叉熵损失的前1错误率由46.00%提高到33.28%。我们还观察到，其他基线的前1错误率往往比交叉熵损失更差，如Virtualsoftmax、Maximum-entropy和MIT67和DenseNet下的标签平滑)。如表6所示，CS-KD的top-5错误率优于其他正则化方法，因为它鼓励有意义的预测。特别是在cifar100数据集下，CSKD将交叉熵损失的前5大错误率从6.91%提高到5.69%，而AdaCos的前5大错误率甚至比交叉熵损失更差。这些结果表明，我们的方法比其他基线方法诱导了更好的预测分布。

与自蒸馏法的比较。我们还将我们的方法与最近提出的自蒸馏技术如DDGSD[53]和BYOT[57]进行了比较。如表2所示，CS-KD在ResNet18上总的top-1错误率更好。例如CS-KD在CUB-200-2011数据集上的误差率最高，为33.28%，而DDGSD和BYOT的误差率分别为41.17%和40.76%。所有被测试的自蒸馏方法都利用了知识蒸馏的正则化效应。CS-KD的优越性可以用其减少类内变异的独特作用来解释。

大规模数据集的评价。为了验证我们的方法的可伸缩性，我们在ImageNet数据集上评估了我们的方法，使用各种模型架构，如ResNet-50、ResNet-101和ResNeXt-101-32x4d[52]。如表5所示，我们的方法在所有测试的体系结构中一致地提高了0.4%的错误率。0.4%的提高相当于在ResNet-101(即ResNet-152)[19]上增加了51层。

3.3 消融研究

特征嵌入分析。我们可以预期，通过迫使dnn产生有意义的预测，可以减少类内的变化。为了验证这一点，我们利用t-SNE[30]可视化方法分析了在CIFAR-100数据集上训练的ResNet-18的倒数第二层特征嵌入。如图3所示，与其他基线相比，包括Virtualsoftmax(图3(b))和AdaCos(图3(c))，我们的方法显著地减少了类内变化，这些基线的设计是为了减少类内变化。我们还提供了在1 (R@1)的度量召回的定量结果，该结果出现在3.1节中。我们注意到，R@1的较大值意味着特性嵌入[50]的类内变化很小。如表6所示，我们的方法对ResNet-18进行训练后，R@1值有了明显的提高。其中CS-KD的R@1在TinyImageNet数据集下为47.15%，而Adacos的R@1、Virtualsoftamx的R@1、cross entropy loss分别为44.66%、44.69%、30.59%。

IamZLT

[论文阅读]Regularizing Class-wise Predictions via Self-knowledge Distillation

Abstract

Introduction

Class-wise self-knowledge distillation

2.1. Class-wise regularization

2.2. Effects of class-wise regularization

Experiments

3.1. Experimental setup

3.2. Classification accuracy

3.3 消融研究

[论文阅读]Is Label Smoothing Truly Incompatible with Knowledge Distillation: An Empirical Study

[论文阅读]IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION:TOWARDS ACCURATEAND EFFICIENT DETECTORS

ZLT

Comments | NOTHING

取消回复

IamZLT's BLOG