新的LiGO技术加速了大型机器学习模型的训练-新技术带来新机遇

新的LiGO技术加速了大型机器学习模型的训练-新技术带来新机遇

研究人员开发的框架通过使用较旧的较小模型的神经元中的权重作为构建块来加速新的,更大的神经网络模型的训练。他们的机器学习方法学习以数据驱动的方式扩展较大模型的宽度和深度

OpenAI的ChatGPT拥有一些令人难以置信的能力,这已经不是什么秘密了——例如,这个聊天机器人可以写出类似莎士比亚十四行诗的诗歌,或者为计算机程序调试代码。ChatGPT所建立的大型机器学习模型使这些能力成为可能。研究人员发现,当这些类型的模型变得足够大时,非凡的能力就会出现。

但更大的模特也需要更多的时间和金钱来训练。训练过程包括向模型展示数千亿个例子。收集如此多的数据本身就是一个复杂的过程。然后是运行许多功能强大的计算机数天或数周来训练一个可能有数十亿个参数的模型所带来的金钱和环境成本。

“据估计,在ChatGPT假设运行的规模上训练模型可能需要数百万美元,仅仅是一次训练运行。我们能否提高这些训练方法的效率,这样我们仍然可以用更少的时间和更少的钱得到好的模型?我们建议通过利用之前训练过的更小的语言模型来做到这一点,”麻省理工学院电气工程与计算机科学系助理教授、计算机科学与人工智能实验室(CSAIL)成员Yoon Kim说。

Kim和他的合作者并没有抛弃先前版本的模型,而是将其作为新模型的基石。通过使用机器学习,他们的方法学会从一个较小的模型中“生长”出一个更大的模型,并对较小的模型已经获得的知识进行编码。这样可以更快地训练更大的模型。

与从头开始训练一个新模型的方法相比,他们的技术节省了训练一个大型模型所需的约50%的计算成本。此外,使用MIT方法训练的模型表现得与使用其他技术训练的模型一样好,甚至更好,这些技术也使用更小的模型来实现更大模型的更快训练。

减少训练大型模型所需的时间可以帮助研究人员以更少的费用更快地取得进展,同时也减少了训练过程中产生的碳排放。它还可以使较小的研究小组与这些大型模型合作,有可能为许多新的进展打开大门。

越大越好

像GPT-3这样的大型语言模型是使用一种称为转换器的神经网络架构构建的,GPT-3是ChatGPT的核心。神经网络松散地基于人脑,由多层互连的节点或“神经元”组成。每个神经元都包含参数,这些参数是神经元在训练过程中学习的变量,用于处理数据。

变压器架构是独特的,因为随着这些类型的神经网络模型越来越大,它们会获得更好的结果。

这些模型通常具有数亿或数十亿个可学习的参数。从头开始训练所有这些参数是昂贵的。

一种有效的技术被称为模型增长。使用模型生长方法,研究人员可以通过复制神经元,甚至复制前一版本网络的整个层,然后将它们堆叠在上面,来增加变压器的大小。他们可以通过在一层中添加新的神经元来使网络更宽,也可以通过添加额外的神经元层来使网络更深。

学会成长

Kim和他的合作者使用机器学习来学习较小模型参数的线性映射。这种线性映射是一种数学 运算,它将一组输入值(在这种情况下是较小模型的参数)转换为一组输出值,在这种情况中是较大模型的参数。

他们称之为学习线性增长算子(LiGO)的方法,以数据驱动的方式,从较小网络的参数中学习扩展较大网络的宽度和深度。

但较小的模型实际上可能相当大——也许它有一亿个参数,研究人员可能想制作一个有十亿个参数的模型。因此,LiGO技术将线性映射分解为机器学习算法可以处理的更小的部分。

LiGO还同时扩展了宽度和深度,这使得它比其他方法更有效。Kim解释说,当用户输入较小的模型及其参数时,可以调整他们希望较大模型的宽度和深度。

当他们将他们的技术与从头开始训练新模型的过程以及模型增长方法进行比较时,它比所有基线都快。他们的方法节省了训练视觉和语言模型所需的大约50%的计算成本,同时经常提高性能。

研究人员还发现,即使他们无法使用更小的预训练模型,他们也可以使用LiGO来加速变压器训练。

免责声明:文章内容来自互联网,本站不对其真实性负责,也不承担任何法律责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:新的LiGO技术加速了大型机器学习模型的训练-新技术带来新机遇 https://www.yhzz.com.cn/a/8850.html

上一篇 2023-04-20 07:54:57
下一篇 2023-04-20 08:15:38

相关推荐

联系云恒

在线留言: 我要留言
客服热线:400-600-0310
工作时间:周一至周六,08:30-17:30,节假日休息。