斯坦福大学和谷歌的ResMem通过显式记忆改进了神经网络模型的泛化-斯坦福大学哪个好

当代大型神经网络在泛化新数据和新任务方面的显著成功归功于它们隐式记忆复杂训练模式的能力。增加模型大小已被证明是实现这种记忆的有效方法,但这也会极大地增加训练和服务成本。是否有一种方法可以在保持相对较小的模型规模的同时提高记忆和泛化?

斯坦福大学的一个研究团队在新论文ResMem: Learn What You Can and remember the Rest中解决了这个问题,提出了ResMem,一种剩余记忆算法,通过单独的k-nearest neighbour component执行显式记忆,提高较小神经网络模型的泛化能力。

研究小组总结了他们研究的主要贡献如下:

我们提出了残差记忆(ResMem),这是一种两阶段学习算法,它将基本预测模型与最近邻回归函数相结合。我们通过经验证明ResMem可以提高神经网络的测试性能,特别是在训练集非常大的情况下。我们从理论上分析了ResMem在程式化线性回归问题上的收敛速度,并表明它可以改进基本预测模型。先前的研究表明,记忆是足够的,甚至是神经网络模型中有效泛化的必要条件。基于这一研究方向,ResMem算法通过一种新颖的显式记忆方法来提高小模型的泛化性能。

斯坦福大学和谷歌的ResMem通过显式记忆改进了神经网络模型的泛化-斯坦福大学哪个好

该团队首先训练了一个标准神经网络,并用软k-最近邻回归(rkNN)拟合模型的残差。最后的输出是原始模型和rkNN预测的和。

斯坦福大学和谷歌的ResMem通过显式记忆改进了神经网络模型的泛化-斯坦福大学哪个好

斯坦福大学和谷歌的ResMem通过显式记忆改进了神经网络模型的泛化-斯坦福大学哪个好

该团队的实证研究将ResMem与DeepNet的视觉基线(CIFAR100和ImageNet上的图像分类)和自然语言处理(自回归语言建模)任务进行了比较。ResMem的测试集泛化能力超过了评估中的所有基准测试。研究人员还指出,当样本数量接近无穷大时,ResMem返回的测试风险比基础预测器更有利。

免责声明:文章内容来自互联网,本站不对其真实性负责,也不承担任何法律责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:斯坦福大学和谷歌的ResMem通过显式记忆改进了神经网络模型的泛化-斯坦福大学哪个好 https://www.yhzz.com.cn/a/9108.html

上一篇 2023-04-20
下一篇 2023-04-20

相关推荐

联系云恒

在线留言: 我要留言
客服热线:400-600-0310
工作时间:周一至周六,08:30-17:30,节假日休息。