(资料图)
RoboCat 面世,“Self-improving”为通用机器人铺平道路。1)近期,Googel DeepMind 推出RoboCat,其基于其多模态模型Gato,可在模拟和物理环境中处理语言、图像和动作。2)自我提升的关键在于自我生成训练数据。RoboCat 可基于输入的机械臂操作实例,通过练习生成新的训练数据,并将新数据合并进入训练集,用于新版本RoboCat 的训练,持续迭代。3)“通用性学习能力”为RoboCat 强项,可快速适应不同机械臂和任务操作。在多样化训练下,即使新的机械臂更加复杂,它也能在几个小时内学会操作,并且在观察1000 个由人类控制的示范项目(仅仅几个小时就收集完毕)后,便能灵巧指挥新的机械臂。4)RoboCat 具备良性的训练循环,学习新任务越多,就能更好学习额外新任务。最初版本只有36%概率成功完成以前未接触的任务,但最新版本已接受更多不同任务训练,成功率增加一倍多。同时,RoboCat 完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案。5)RoboCat 独立学习技能和快速自我提高的能力,特别是应用于不同的机器人时,将有助于为新一代更有效、通用的机器人铺平道路。
从通用机器人到行业机器人,“ViT+GPT+机械”为标准范式。1)行业机器人的实现难度相对通用机器人更低,而多模态GPT 的发展是通往行业机器人的钥匙。多模态GPT 助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。与此同时,ViT 可应用于各种模态,使用transformer 编码器得到包含输入模态特征的编码,可行性已经得到了以上业界众多工作的验证,成为了多模态GPT 的典型范式。
Google 推出5620 亿参数的PalM-E 模型,将540B PaLM 和ViT-22B 结合。通过ViT 将连续的具体观察结果(例如图像、状态估计或其他传感器模态)以类似于语言的方式注入到语言模型中,可以执行多种具体任务,包括机器人操作规划、视觉问题解答、生成字幕等。并具备能与数据集中不存在的物体交互的泛化能力。2)执行器是实现动态运动的最关键的部分,当前业界与学界有众多型号的人形机器人,分别采用不同的方案。根据UCLA《Design of a Highly Dynamic Humanoid Robot》分类,目前有腿机器人的执行器方案可分为高速齿轮减速+力矩传感器执行器、串联弹性执行器、本体驱动器和液压执行器等。伴随机器人需求持续释放,产业链也有望迎来景气。
建议关注算法及行业机器人潜力公司:1)硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技等。2)潜力方案厂商:大华股份、海康威视、千方科技、中科创达、中科信息、云从科技、亿嘉和、萤石网络、商汤科技等。
风险提示:机器人技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。
关键词: