AI课堂第9讲:DL深度学习-模型欠拟合和过拟合问题分析

AI课堂第9讲:DL深度学习-模型欠拟合和过拟合问题分析

#我在头条搞创作#

上节课我们讲了MLP在MNIST数据集上的分类应用,我们在构建模型时涉及到的模型结构和超参数可以自行更改去验证更好的模型效果。我们在实验过程中常会出现一种情况:模型在训练数据集上效果很好,但是在测试数据集上效果一般或者比较差,这种现象被称为——过拟合(overfitting)。

与过拟合相对应的是欠拟合(underfitting),我们常用训练误差(training error)和泛化误差(generalization error)区分两者,误差由损失函数计算所得(比如前面讲的线性回归用到的平方损失函数和 softmax 回归用到的交叉熵损失函数)。

即训练数据集表现得好,不代表实际测试数据集就一定表现好。因此,模型在训练选择时应更多地关注如何降低泛化误差,提高泛化能力。

模型选择

我们在训练前需要确定超参数和模型参数,过程中通过多次epoch来达到较好的训练效果,每个epoch对应一个模型文件,那么如何选择最佳的模型和设置超参数呢?此时需要验证数据集(validation data set)辅助判断,因为理论上,我们之前用的测试集只能在所有超参数和模型参数确定后使用一次,因此引入了验证集。验证集一般是从训练集中随机选取一部分作为验证集。

训练集、验证集和测试集比例一般是6:2:2。

即验证集可以辅助我们选择误差较小的模型文件。

过拟合VS欠拟合

欠拟合

欠拟合可理解为模型对训练数据的特征提取不充分,没有学习到数据背后的规律,或者评判标准过于宽松,导致模型在测试数据集上无法做出正确判断。表现为:训练误差和泛化误差都相对较高。

样本特征较少、模型复杂度较低时,对样本的特征提取不够充分,就可能导致欠拟合问题。

过拟合

过拟合可理解为模型对特征信息提取过多,把数据噪声当作规律学习,评判标准过于严格。表现为:训练误差低,泛化误差高。

当数据集质量不高、噪声较大、训练样本数较少,或是模型复杂度较高、参数过多,就会导致学习到的特征并不普遍适用,模型高度拟合训练数据,出现过拟合问题。

过拟合与欠拟合比喻图解

这两种拟合问题是所有深度学习从事人员“深恶痛绝”的问题,打个比喻,某同学平时学习认真,模拟考试成绩也很好,但是期末考试成绩却很难保证会一样好或者更好。客观原因一般是试卷难或者是平时模拟试卷做的少导致一些题型没遇到。

类比到深度学习模型拟合问题的导致因素主要有两方面:模型复杂度(试卷难)和训练数据集大小(平时学习的题型少)。

模型复杂度

为了模拟过拟合和欠拟合两种现象,我们选择一个复杂的模型和一个简单的模型来测试。

高复杂度模型选择高阶多项式函数

低复杂度模型选择低阶多项式函数:一阶多项式函数又称为线性函数:y=wx+b

上面两个模型函数均采用平方损失函数来拟合模型。

给定训练数据集,如果模型的复杂度过低,很容易出现欠拟合;如果模型复杂度过高,很容易出现过拟合。应对拟合和过拟合的个办法是针对数据集选择合适复杂度的模型。

训练数据集

影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来说,如果训练数据集中样本数过少,特别是模型参数数量(按元素计)更少时,过拟合更容易发生。随着我们增加训练数据量,泛化误差通常会减少。因此,在硬件允许的情况下应尽可能增加训练数据集,特别是当模型复杂度较高时。

实验过程展示如下(基于Pytorch):

我们将生成一个人工数据集。在训练数据集和测试数据集中,给定样本特征x,我们使用如下的三阶多项式函数来生成该样本的标签

噪声项服从正态分布,平均值为0,标准差为0.1。我们将为训练集和测试集各合成100个样本

1.三阶多项式函数拟合(正常情况)

我们先是与数据生成函数同阶的三阶多项式函数拟合。实验表明,这个模型的训练误差和在测试数据集的误差都较低。训练出的模型参数也接近真实值:w1 = 1.2, w2 = 3.4, w3 = 5.6, b= 5。

2.线性函数拟合(拟合)

我们再试试线性函数拟合。很明显,该模型的训练误差在迭代早期下降后便很难继续降低。在完成最后次迭代周期后,训练误差依旧很大,即模型复杂度不够。

3.训练量不足(过拟合)

事实上,即便是与数据成模型同阶的三阶多项式函数模型,如果训练量不足,该模型依然容易过拟合。让我们仅仅使用5个样本来训练模型。显然,训练样本过少了,甚至少于模型参数的数量。这使模型显得过于复杂,以至于容易被训练数据中的噪音影响。在迭代过程中,即便训练误差较低,但是测试数据集上的误差却很大 。这是典型的过拟合现象。

前面提到,增大训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价高昂。在训练数据集固定的情况下,一般使用权重衰减和丢弃法来解决过拟合问题。后续我们将继续讲解解决过拟合问题的方法。

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2022年6月20日
下一篇 2022年6月20日

相关推荐

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息