斯坦福大学和谷歌的ResMem通过显式记忆改进了神经网络模型的泛化-斯坦福大学哪个好

2023-04-20 11:33:15 • 技术知识 • 阅读 170

当代大型神经网络在泛化新数据和新任务方面的显著成功归功于它们隐式记忆复杂训练模式的能力。增加模型大小已被证明是实现这种记忆的有效方法，但这也会极大地增加训练和服务成本。是否有一种方法可以在保持相对较小的模型规模的同时提高记忆和泛化?

斯坦福大学的一个研究团队在新论文ResMem: Learn What You Can and remember the Rest中解决了这个问题，提出了ResMem，一种剩余记忆算法，通过单独的k-nearest neighbour component执行显式记忆，提高较小神经网络模型的泛化能力。

研究小组总结了他们研究的主要贡献如下:

我们提出了残差记忆(ResMem)，这是一种两阶段学习算法，它将基本预测模型与最近邻回归函数相结合。我们通过经验证明ResMem可以提高神经网络的测试性能，特别是在训练集非常大的情况下。我们从理论上分析了ResMem在程式化线性回归问题上的收敛速度，并表明它可以改进基本预测模型。先前的研究表明，记忆是足够的，甚至是神经网络模型中有效泛化的必要条件。基于这一研究方向，ResMem算法通过一种新颖的显式记忆方法来提高小模型的泛化性能。