谷歌发布史上最大「通才」AI 模型，可让机器人更自主，具有 ...

北京时间3月7日，谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E，参数量高达5620亿（GPT-3的参数量为1750亿）。

PaLM-E的应用示意。

“PaLM-E是迄今为止已知的最大VLM（视觉语言模型）。我们观察到诸如多模态思维链推理（允许模型分析包括语言和视觉信息的一系列输入），只接受单图像提示训练的多图像推理（使用多个图像作为输入来做出推理或预测）等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess说。

论文的第一作者、谷歌AI研究员Danny Driess的推文。
在这个意义上，随着时间推移，深度学习模型变得越来越复杂，PaLM-E似乎延续了“产生惊喜”的这个趋势。
PaLM-E（Pathways Language Model with Embodied ）是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合。它被称为“PaLM-E”是因为它基于谷歌现有的 “PaLM”大语言模型 (类似于ChatGPT背后的技术）。谷歌通过添加感官信息和机器人控制，使PaLM“具身化（embodiment，与身体联系紧密的状态）”。由于它基于语言模型，PaLM-E会进行连续观察，例如图像信息或传感器数据，并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作，ViT-22B已经接受过各种视觉任务的训练，例如图像分类、对象检测、语义分割和图像字幕。
谷歌并不是唯一一个致力于使用神经网络进行机器人控制的研究小组。这项特殊的工作类似于微软最近的“ChatGPT for Robotics”论文，该论文尝试以类似的方式将视觉数据和大型语言模型结合起来进行机器人控制。
作为一种多模态具身视觉语言模型（VLM），PaLM-E不仅可以理解图像，还能理解、生成语言，可以执行各种复杂的机器人指令而无需重新训练。

机器人被要求去抽屉里拿薯片。
根据谷歌的说法，当给出一个高级命令时，比如“把抽屉里的薯片拿给我”，PaLM-E可以为一个有手臂的移动机器人平台（由谷歌机器人开发）生成一个行动计划并执行自己的行动。
PaLM-E通过分析来自机器人相机的数据来实现这一点，而无需对场景进行预处理。这消除了人类预处理或注释数据的需要，并允许更自主的机器人控制。它还具有弹性，可以对环境做出反应。例如，PaLM-E模型可以引导机器人从厨房取薯片袋，而且，通过将PaLM-E集成到控制回路中，它可以抵抗任务期间可能发生的中断。在一个视频示例中，研究人员从机器人手中抓取薯片并移动它们，但机器人找到薯片并再次抓取它们。
在另一个示例中，相同的PaLM-E模型通过具有复杂序列的任务自主控制机器人，这些任务以前需要人工指导。谷歌的研究论文解释了PaLM-E如何将指令转化为行动：
我们展示了PaLM-E在具有挑战性和多样化的移动操作任务上的性能。机器人需要根据人类的指令规划一系列导航和操纵动作。例如，给出指令“我把饮料弄洒了，你能给我拿点东西来清理吗”，机器人需要规划一个包含“1. 找到海绵，2. 捡起海绵，3. 拿来，4.放下海绵”的序列给用户。受这些任务的启发，我们开发了3个用例来测试PaLM-E的具身推理能力：可供性预测、故障检测和长期规划。
PaLM-E识别图像中的篮球明星科比·布莱恩特，并可以生成关于他的文本信息，比如他赢得了多少次冠军。
研究人员写道，PaLM-E也是一种“有效的视觉语言模型”。例如，它可以识别图像中的篮球明星科比·布莱恩特，并可以生成关于他的文本信息，比如他赢得了多少次冠军。在另一个例子中，PaLM-E看到一个交通标志并解释与之相关的规则。
PaLM-E看到一个交通标志并解释与之相关的规则。

期权匿名回答 · 2023-3-13 09:06:39

大家先不用太激动，多模态的军备竞赛才刚刚开始，未来会不停的刷新大家的现有认知。
简要的说下核心观点：

为何多模态重要，就像PaLM-E里面提到的，LLM有个巨大的局限性是它只在文本语料中训练，虽然积累了大量的内在知识，但无法被真实世界Grounding，即文本世界的抽象需要被真实世界的视觉、实体反馈等真实物理规律去标定。因此，若想要有AGI，必须多模态。
多模态领域需要验证出来统一有效的框架，才能吸引更多资源去实践更大规模的多模态模型，探测涌现能力的临界点。

说一句题外话，好多人都在提大语言模型LLM只是在猜概率，和人类是不一样的。且不说我们对人类智能的理解极其有限。就以统计学在国内的普及程度看，我觉得有必要强调一次，当LLM这种生成式的model真的学到了一个很好的分布时，它在生成时候的概率和大家日常中觉得抛硬币、抓娃娃是完全不一样的概念。如果一个描述真实世界的分布被无限近似的建模出来的，这个分布生成出来的结果就是可靠的。
LLM的成熟一定会对各个领域产生推动作用，和机器人领域结合是很自然的事情。但它没有开放出来试用，从demo看效果和像openai一样开放给公众测试差距还是很大。
其中比较关键的点是多模态领域目前的模型架构还没有完全统一，但很多工作已经开始把其他模态的输入以image as a foreign language的思想，直接和文本的token放在一起组成序列直接训练。这个架构简单粗暴，没有那么多trick的设计，就看堆规模的能力，在scale的角度上比较方便。我感觉它是正确的道路，看它将来会不会一统多模态。

大家注意下上面PaLM-E的架构图，不同模态的输入，用了不同的prefix来指代不同模态，但整体的架构和LLM中序列输入没有质的区别，统一用Transformer来做Decoder。也只有纯Decoder的任务，才能构造出足够难的任务让model去建模真实世界的分布。
觉得目前出来的一些工作，都是一种框架或方向的尝试，还有一堆坑可以继续填，更像GPT-1的时刻，还没有到多模态领域的GPT-3。微软前不久的一篇工作也展示了类似多模态的思路，微软这个unilm组很厉害，做的工作都非常值得关注。
Language Is Not All You Need: Aligning Perception with Language Models其中提到的MAGENTO和xPOS，明显就是为了进一步增加scale做的基础建设。期待他们未来的工作吧。
PS：给一个scale law才是王道的形象例子。当初coca的这张图真的是惊艳了好多人，人类还是要大力出奇迹！

期权匿名回答 · 2023-3-13 09:06:56

你知道吗，自从去年的stable diffusion出来后，做事情的逻辑就跟以前不一样了。
以前看到一个这种问题，就会去各种浏览器，社交平台上看最新的评价等等。
现在呢，我会先去官网看看demo，比如这个驴子驼动物的图片。
PaLM-E: An Embodied Multimodal Language Model

然后我会用这个prompt去试试能不能反向生成原图。
在midjourney的prompt是a donkey is carrying a dog, cat, and rooster.

不太对，应该是垂直的摞起来的感觉。

好像还是没有听懂。
用perfect prompt优化一下我的prompt试试。

从10个字到60多字，按理说会优化的不错，让我们看看结果。

这次结果很不错了。
到了这个地方我选择去看看论文，我还是选择用工具，chatpdf，帮我速读文章：

方便速读，用中文

但是中文的理解能力确实差一点儿，用英文就没问题：

大概就是这样，我用到了midjourney，chatpdf，promptperfect，如果只要细看的话还会用到ChatGPT。
我现在完全是个工具人了。

期权匿名回答 · 2023-3-13 09:07:22

从“Attention Is All You Need”到“PaLM-E：史上最大AI模型&#34;，谷歌也没能逃过真香定律。
大概看了一下项目演示和文章，我的第一观感是这还仅仅是一个实验室产品，离ChatGPT那样的成熟度，以及大规模推广和商用还远着。但这毕竟意味着大模型和AGI的烈火烧到了计算机视觉领域。
PaLM-E基本数据

项目演示：PaLM-E: An Embodied Multimodal Language Model
文章地址：https://arxiv.org/pdf/2303.03378.pdf

先堆数据：PaLM-E视觉语言模型（VLM）包含5620亿个参数。该模型由两部分组成：PaLM（5400亿）+ViT-22B（220亿）。

Pathways Language Model (PaLM) 是谷歌团队2022年4月份推出的一个基于 Transformer 的大语言模型LLM，有 5400 亿个参数，是目前最大的语言模型之一。文章地址：https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf
ViT-22B（Vision Transformer）文章地址：https://arxiv.org/pdf/2302.05442.pdf。是目前最大的视觉Transformer模型。

文章题目中的Embodied Multimodal Language Model是一种将多种模态的信息（如图像、文本）注入预训练的大语言模型（LLM）的嵌入空间（embedding space）中的语言模型，从而建立词汇和感知之间的联系。这种语言模型在人机交互领域有着重要的意义。
这里面的“embodied”也就是PaLM-E中的E，embodied（具身化）的概念是指语言模型能够直接利用真实世界中连续的传感器信息（比如视觉传感器图像），而不仅仅依赖于文本输入。
在PaLM-E模型的项目演示中，最重要的演示就是embodied reasoning task，即具身推理任务。embodied reasoning task是指让一个智能体（agent）在一个虚拟或真实的环境中，通过多模态的输入（如语言、视觉、触觉以及机器人的3D空间状态信息等），完成一些需要常识和逻辑推理的任务。例如，让一个机器人根据人类的指令，制作一个三明治，就是一个具身推理任务。这种任务不仅需要机器人理解人类的语言和意图，还需要机器人观察和操作环境中的物体，以及规划一系列的子目标和动作。具身推理任务是一个很复杂的研究领域，它还与多模态语言模型、神经符号系统、对话系统等方面的技术相关。
需要说明一下的是，PaLM-E不是专门用于完成向上面提到的多模态信息输入的具身推理任务。它也可以只接受文本信息完成NLP的任务。
视觉语言模型VLM

视觉语言模型（vision-language models, VLM) 是一种能够同时处理图像和文本的深度学习模型，它们可以用于多种视觉语言任务，如图像检索、图像描述、视觉问答等。视觉语言模型通常由三个关键元素组成：一个图像编码器，一个文本编码器，以及一个融合两个编码器信息的策略。这些关键元素之间紧密耦合，因为损失函数是根据模型结构和学习策略来设计的。
这里面一个关键的问题是如何将图像信息与文本信息融合，以便进行多模态的推理和预测。融合策略不尽相同，传统的融合方法可以根据raw data的编码程度分为以下几种：

早期融合：在编码阶段就将图像和文本的特征进行拼接或加权求和。
中期融合：在中间层或注意力机制中将图像和文本的特征进行交互或对齐。
后期融合：在输出阶段将图像和文本的特征进行结合或投票。

选择什么样的融合策略也要看具体的任务是什么，以适应不同的输入输出格式。例如，对于视觉问答任务，可以使用早期融合或中期融合来生成问题相关的图像表示；对于短语定位任务，可以使用后期融合来选择最匹配的区域框。
PaLM-E的文章中提到的策略是将感知到视觉图像和文本融合为“多模态语语句（multimodal sentences）”进行向量表征，然后作为input输入给模型。这样的语句包含了视觉传感器的图像、机器人的状态估计以及文本指令等信息。使得它能够处理多种任务，包括机器人操纵规划、视觉问答和字幕生成等。
我比较感兴趣的是关于涉及机器人任务的部分，我看文章中的演示，PaLM-E核心模型的replan的频率是1Hz，机器人动作估计是5Hz。我好奇的是实时性这一点如何保证的？这种规模的模型参数已经超乎了我的认知，它是如何做到在线实时的感知、数据处理（应该至少包括视觉传感器图像信息、语音文本、机器人状态估计）、决策和动作规划的？等有空好好研究一下。

最后，想说说为什么现在每次谷歌发布这样的大模型产品，好像都激不起什么大风浪。像这个PaLM-E模型在国外论坛上也没什么讨论热度。
我觉得很重要的一点是谷歌给AI快要变成“ClosedAI”了，大家都不买账了。
我放两张图大家应该就能感受到。分别是谷歌和OpenAI的LLM模型，注意看Public一栏和Playground一栏。

OpenAI为什么热度这么高，人家有模型，有API是真给你用啊，是骡子是马拉出来遛遛。模型强不强大家帮你测，效果好自然有人帮你吹。
反观谷歌，把arxiv当成了输出点，paper放上去，然后再录制几段演示视频给大家看就完了。这种手段用了几次就唬不住人了。包括前段时间的Bard翻车的例子。（谷歌 AI 犯错致市值一夜蒸发 1056 亿美元，谷歌 Bard 是否暴露了类似的人工智能系统的缺陷？）
只靠文章，然后拿参数数量吓唬人，但大家又不都是专业科研人员，谁有功夫研究你的paper去。
总不能把油管当playground，然后让大家看演示视频吧。
我倒是觉得谷歌应该学学openai，把一部分模型open出来。是好是坏大家自然就能分辨了。
我是 @卜寒兮，欢迎关注。

期权匿名回答 · 2023-3-13 09:07:53

说实话，如果说 ChatGPT 给我的感觉是惊艳，那这篇论文演示的内容就有点惊吓了。
我开始期待有生之年究竟能看到什么样的科技飞升了。大厂们卷起来太狠了。
PaLM-E: An Embodied Multimodal Language Model（我搬运其中几段演示视频[1]）

我们展示了一些示例视频，展示了如何使用PaLM-E在两个不同的真实实施例上计划和执行长距离任务。请注意，所有这些结果都是使用在所有数据上训练的相同模型获得的。在第一个视频中，我们执行了一个长距离指令“从抽屉里拿出米片”，其中包括多个计划步骤以及来自机器人摄像头的视觉反馈。最后，在同一个机器人上展示另一个例子，其中的指令是“给我一颗绿色的星星”。绿星是这个机器人没有直接接触的物体。

https://www.zhihu.com/video/1616884878167031808

https://www.zhihu.com/video/1616884910739836928

https://www.zhihu.com/video/1616885018143186945

https://www.zhihu.com/video/1616885157658505216
562B 的参数集成了 540B 的 PALM 和 22B 的 ViT，作为比较，GPT-3.5 的参数规模是 175B，ChatGPT 用的应该是百亿（10B）规模，Meta 开源的 LLaMA 则是 65B。
之前我就认为，ChatGPT 最大意义是给大厂们证明了「力大砖飞」的效果，让大厂们愿意不计成本地继续砸资源进去；同时带来的结果也是，大部分小机构很难有机会在大模型训练上做出成绩了。
大厂们马上都要把参数卷到上千 B 了，实验室那么穷怎么玩。

从这个角度上讲，接下来会有越来越多模型训练方向和人机交互方式的变化。
过去做模型，大家分着方向，你做 NLP，我做 CV，他做 ASR、STT 或者 TTS。大家各自做出了模型，再往一起集成耦合，做出各种产品。
以后多模态的融合是必然的。甚至有没有可能将来直接大模型一把梭，管你是文字、图片还是语音，直接扔到一起一锅乱炖，炼出个全能模型。

然后是人机交互方式的变化。
其实 ChatGPT 出来以后，已经有人在讨论 LUI（language user interface）了，激进派甚至认为，在未来几年，LUI 类产品会替代掉传统的 GUI 应用。其实想想也是，如果真的直接畅想机器人，我们总不会再拿个遥控器或者装个 App，对话式的产品会越来越多，不会再有那么多 UI 上的设计和门槛。
过去我们很少用 LUI，其实主要是因为产品没有足够的理解能力。HomePod 用 Siri 调节音量就是个经典例子，它永远不理解你想要的音量大小，你必须精确地告诉他调节音量的百分比。
但是即便是当前程度的人工智能，我也完全适应且习惯了用小爱同学开灯、关灯，调节空调温度，定闹钟等等操作。虽然有时偶尔智障，或者不那么精确，但说一句话就能完成的操作真的比找遥控器或者打开 App 点击几层菜单爽太多了。

总结一下：
1、融合的视觉语言模型，参数量本身很大；
2、多模态融合是方向；
3、人机交互方式会发生变化。
至于具体的实际效果，我期待尽快能够体验。
以上。

期权匿名回答 · 2023-3-13 09:08:07

看到这个新闻,我第一时间想到以下3个点
1.在ChatGPT之后,如果PaLM-E再次带给人们惊艳的效果,那么继在小团队,小公司,小课题组这类没有财力做如此大模型的做nlp的一群人哭晕在厕所后,做CV的差不多也要准备哭晕在厕所了,未来的很长一段时间,机器学习都会往大数据大模型方向发展,同时形成行业门槛,导致垄断而形成虹吸效应,也就是,这个行业未来很可能会卷翻天,形成行业顶端的那一小部份人赢家通吃,剩下的通通去喝西北风的局面，同时，可以预见的是一系列做简化模型研究和做APU等硬件开发的行业会有很快的发展，但这种能够人人都在家里都能跑模型的时代要什么时候来，这个也很难知道。
2.作为一个游戏引擎相关的码农，本能的觉得如果这种模型成功，如果用在游戏的npc智能里，这个游戏一定非常好玩，以前觉得刀剑神域里的世界离我们很遥远，但如果真的效果非常好，至少游戏里那种npc的效果就有了，把不准再过个几年，这个游戏就能够问世，第一个吃这个螃蟹的，只要不是其它做的太过拉胯，几乎肯定是一个爆款游戏。
3.运用到现实的智能机器人个人觉得应该还有很多问题要讨论，即使软件成熟了，硬件仍然需要一段时间的研发，而且如果惹出事了，谁来背锅也是一个值得深入讨论的问题，这一块个人觉得应该近期不太可能。

谷歌发布史上最大「通才」AI 模型，可让机器人更自主，具有 ...

5 个回复