首页 > 技术知识 > 正文

微软推出理解图像内容、解决视觉难题的人工智能模型-微软推出的云计算操作系统

周一,微软的研究人员推出了Kosmos-1,这是一种多模态模型,据报道,它可以分析图像中的内容,解决视觉难题,执行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合文本、音频、图像和视频等不同输入模式的多模态人工智能是构建人工通用智能(AGI)的关键一步,该智能可以在人类水平上执行一般任务。

研究人员在其学术论文《语言不是你所需要的一切:将感知与语言模型相结合》中写道:“作为智能的基本组成部分,多模态感知是实现人工通用智能的必要条件,在知识获取和现实世界的基础上。”

Kosmos-1论文中的视觉示例显示了该模型分析图像并回答有关图像的问题,从图像中读取文本,为图像编写字幕,并以22%–26%的准确率进行视觉智商测试。

虽然媒体都在讨论大型语言模型(LLM)的新闻,但一些人工智能专家指出,多模态人工智能是通往通用人工智能的潜在途径,这种假设的技术表面上能够取代人类完成任何智力任务(以及任何智力工作)。AGI是OpenAI的既定目标,OpenAI是微软在人工智能领域的关键业务合作伙伴。

在这种情况下,Kosmos-1似乎是一个没有OpenAI参与的纯微软项目。研究人员称他们的创造为“多模态大语言模型”(MLLM),因为它的根源在于自然语言处理,就像纯文本的LLM,如ChatGPT。它表明:为了让Kosmos-1接受图像输入,研究人员必须首先将图像翻译成LLM可以理解的一系列特殊符号(基本上是文本)

微软使用来自网络的数据训练了Kosmos-1,训练后,他们评估了Kosmos-1在几个测试中的能力,包括语言理解、语言生成、光学字符识别自由文本分类、图像字幕、视觉问题解答、网页问题解答和零镜头图像分类。根据微软的说法,在这些测试中,Kosmos-1的表现优于目前最先进的模型。

特别令人感兴趣的是Kosmos-1在Raven的渐进推理中的表现。它通过呈现一系列形状并要求应试者完成序列来衡量视觉智商。为了测试Kosmos-1,研究人员进行了一次一次的填写测试,每个选项都完成了,并询问答案是否正确。Kosmos-1在Raven测试中只有22%的时间能正确回答一个问题(微调后为26%)。这绝不是一次扣篮,方法上的错误可能会影响结果,但Kosmos-1在Raven IQ测试中击败了随机机会(17%)。

尽管如此,虽然Kosmos-1代表了多模态领域的早期步骤(其他人也在采用这种方法),但很容易想象,未来的优化可能会带来更显著的结果,使AI模型能够感知任何形式的媒体并对其进行操作,这将大大增强人工助理的能力。在未来,研究人员表示,他们希望在模型大小上扩大Kosmos-1,并整合语音能力。

猜你喜欢