Abstract

将软目标作为硬目标的加权平均和标签上的均匀分布,通常可以显著提高多类神经网络的泛化和学习速度。用这种方法平滑标签可以防止网络变得过于自信,标签平滑已经被应用到许多最先进的模型中,包括图像分类、语言翻译和语音识别。尽管标签平滑被广泛使用,但人们对它的理解仍然很差。在这里,我们的经验表明,除了提高泛化,标签平滑改善模型校准,这可以显著提高波束搜索。然而,我们也观察到,如果用标签平滑来训练教师网络,知识蒸馏到学生网络的效率会低得多。为了解释这些观察结果,我们将标签平滑如何改变网络倒数第二层学习的表示形式可视化。我们证明了标签平滑鼓励了从同一个类到紧密聚类中的组的训练例子的表示。这将导致日志中关于不同类别实例之间相似性的信息丢失,这是蒸馏所必需的,但不会损害模型预测的泛化或校准。

1 Introduction

众所周知,神经网络训练对最小化的损失非常敏感。在Rumelhart等人对二次损失函数推导出反向传播后不久,几位研究人员指出,通过梯度下降最小化交叉熵,可以获得更好的分类性能和更快的收敛速度[2,3]。然而,即使在神经网络研究的早期,也有迹象表明,其他更奇特的目标可以优于标准的交叉熵损失[4,5]。最近,Szegedy等人。[6]引入了标签平滑,通过计算交叉熵来提高精度,而不是与“硬”目标的数据集,而是这些目标的加权混合均匀分布。

标签平滑已成功用于提高深度学习模型在一系列任务中的准确性,包括图像分类、语音识别、和机器翻译(表1)。Szegedy等人最初提出标签平滑作为一种策略,以改善Inception架构在ImageNet数据集上的性能,自那时以来,许多最先进的图像分类模型都将标签平滑纳入到训练过程中[7,8,9]。在语音识别中,Chorowski和Jaitly[10]使用标签平滑来降低华尔街日报数据集上的错误率。在机器翻译中,Vaswani et al.[11]在BLEU得分上取得了微小但重要的提高,尽管困惑度有所降低。

虽然标签平滑是一种被广泛使用的提高网络性能的“技巧”,但是关于标签平滑为什么以及何时应该工作,我们所知甚少。这篇论文试图阐明神经网络训练的行为与标签平滑,我们描述了几个有趣的性质,这些网络。我们的贡献如下:

  • 本文介绍了一种基于倒数第二层激活的线性投影的可视化方法。这种可视化可以直观地了解使用和不使用标签平滑训练的网络的倒数第二层之间的表示有何不同。
  • 我们证明,标签平滑隐式校准学习模型,使其预测的置信度与预测的准确性更一致。
  • 我们发现,标签平滑会损害蒸馏,即当教师模型使用标签平滑进行训练时,学生模型的表现更差。我们进一步表明,这种不利影响是由于logits中的信息丢失造成的。

1.1 Preliminaries

在描述我们的发现之前,我们提供了标签平滑的数学描述。假设我们将神经网络的预测写成倒数第二层激活的函数为:

其中pk是模型赋给第k类的可能性,wk代表最后一层的权值和偏差,x是包含与“1”连接的神经网络的倒数第二层的激活量的向量。对于用硬目标训练的网络,我们最小化真实目标yk与网络输出pk之间的交叉熵的期望值,如: