麻省理工学院的一项研究对卷积神经网络进行了第一次理论分析,并为网络训练期间属性的出现提供了新的见解
麻省理工学院和布朗大学研究人员的一项新研究描述了深度分类器训练过程中出现的几个特性,深度分类器是一种人工神经网络,通常用于图像分类、语音识别和自然语言处理等分类任务。
论文《用平方损失训练的深度分类器的动力学:归一化、低秩、神经崩溃和泛化边界》。今天发表在《研究》杂志上,是第一个从理论上探索用平方损失训练深度分类器的动力学,以及诸如秩最小化、神经崩溃和神经元激活与层的权重之间的对偶性等属性是如何交织在一起的。
在这项研究中,作者专注于两种类型的深度分类器:全连接的深度网络和卷积神经网络(CNN)。
之前的一项研究研究了大型神经网络在训练的最后阶段发展的结构特性。该研究集中在网络的最后一层,并发现为适应训练数据集而训练的深度网络最终会达到一种被称为“神经崩溃”的状态。当神经崩溃发生时,网络将一个特定类的多个示例(例如猫的图像)映射到该类的单个模板。理想情况下,每个类的模板应该尽可能远离彼此,使网络能够准确地分类新示例。
麻省理工学院大脑、思想和机器中心的一个小组研究了网络可以实现神经崩溃的条件。具有随机梯度下降(SGD)、权重衰减正则化(WD)和权重归一化(WN)这三种成分的深度网络,如果经过训练以拟合其训练数据,将显示神经崩溃。与早期研究的经验方法相比,麻省理工学院的研究小组采取了一种理论方法,证明神经崩溃来自于使用SGD、WD和WN的平方损失的最小化。
合著者、麻省理工学院麦戈文研究所博士后Akshay Rangamani表示:“我们的分析表明,神经崩溃来自于高度表达的深度神经网络的平方损失最小化。它还强调了权重衰减正则化和随机梯度下降在推动神经崩溃解决方案方面发挥的关键作用。”
权重衰减是一种正则化技术,它通过降低权重的大小来防止网络过度拟合训练数据。权重归一化缩放网络的权重矩阵,以便它们具有相似的比例。低秩是指矩阵的一个属性,其中它具有少量的非零奇异值。泛化边界为网络准确预测在训练期间未见过的新示例的能力提供了保证。
作者发现,预测低秩偏差的相同理论观察结果也预测了权重矩阵和网络输出中存在固有的SGD噪声。这种噪声不是由SGD算法的随机性产生的,而是由秩最小化和数据拟合之间的有趣的动态权衡产生的,它提供了一个固有的噪声源,类似于混沌状态下动态系统中发生的情况。这种类似随机的搜索可能有利于泛化,因为它可以防止过度拟合。
“有趣的是,这一结果验证了经典的泛化理论,表明传统边界是有意义的。它还为稀疏网络(如CNN)的许多任务相对于密集网络的卓越性能提供了理论解释,“合著者和麻省理工学院麦戈文研究所博士后Tomer Galanti评论道。事实上,作者证明了具有局部内核的CNN的新基于范数的泛化边界,即在其权重矩阵中具有稀疏连接的网络。
在这种情况下,泛化可能比密集连接的网络好几个数量级。这一结果验证了经典的泛化理论,表明它的边界是有意义的,并且与最近一些对过去泛化方法表示怀疑的论文背道而驰。它还为稀疏网络(如CNN)相对于密集网络的优越性能提供了理论解释。到目前为止,CNN而不是密集网络代表了深度网络的成功故事这一事实几乎完全被机器学习理论所忽略。相反,这里提出的理论表明,这是为什么深度网络如此有效的一个重要见解。
免责声明:文章内容来自互联网,本站不对其真实性负责,也不承担任何法律责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:深度分类器训练动态的新见解-深度组合 https://www.yhzz.com.cn/a/9036.html