前导知识

(一)、为什么有标签平滑正则化(Label Smoothing Regularization, LSR)的方法?

在深度学习样本训练的过程中,我们采用one-hot标签去进行计算交叉熵损失时,只考虑到训练样本中正确的标签位置(one-hot标签为1的位置)的损失,而忽略了错误标签位置(one-hot标签为0的位置)的损失。这样一来,模型可以在训练集上拟合的很好,但由于其他错误标签位置的损失没有计算,导致预测的时候,预测错误的概率增大。为了解决这一问题,标签平滑的正则化方法便应运而生。

(二)、标签平滑是如何实现的

(1). 传统的softmax公式如下:

则我们可以得到交叉熵(cross entropy)损失: