在模型训练的过程中CNN使用训练集进行训练而无法接触到验证集的数据,随着训练轮数的增加会出现,CNN模型在训练集上的误差会降低但在测试集上的误差会逐渐降低,然后逐渐升高而我们为了追求的是模型在测试集上的精度越高越好。
解决上述问题最好的解决方法:构建一个与测试集尽可能分布一致的样本集(可称
为验证集)在训练过程中不断验证模型在验证集上的精度,并以此控制模型的训
训练集(Train Set):模型用于训练和调整模型
验证集(Validation Set):用来验证模型精度和调整模型超参数
测试集(Test Set):验证模型的泛化能力
直接将训练集划分成两部分新的训练集和验证集。这种划分方式的优点是最为直接简单;缺点是只得到了一份验证集有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较夶的情况
将训练集划分成K份,将其中的K-1份作为训练集剩余的1份作为验证集,循环K训练这种划分方式是所有的训练集都是验证集,最終模型验证精度是K份平均得到这种方式的优点是验证集精度比较可靠,训练K次可以得到K个有多样性差异的模型;CV验证的缺点是需要训练K佽不适合数据量很大的情况。
通过有放回的采样方式得到新的训练集和验证集每次的训练集和验证集都是有区别的。这种划分方式一般适用于数据量较小的情况
在本次赛题中已经划分为验证集,因此选手可以直接使用训练集进行训练并使用验证集进行验证精度(当嘫你也可以合并训练集和验证集,自行划分验证集)
每轮进行训练和验证,并根据最优验证集精度保存模型