在周风余教授的指导下,云基智能机器人实验室知识组以知识驱动为核心研究了视觉语言融合的多模态机械臂抓取。
视觉语言抓取是一项基础且具有挑战性的任务,然而以往的方法不仅忽略了细粒度视觉感知,而且忽略了目标属性与候选抓取检测之间的相关性。为此,我们课题组提出了一个用于机器人视觉语言分割和抓取检测的CLIP驱动的属性感知网络(CTNet),CTNet分为三个阶段:倾听阶段、感知阶段和抓取阶段。1)倾听阶段利用预先训练的CLIP来理解和捕捉语言概念;2)感知阶段用于挖掘面向对象的特征和属性(例如,边界和空间位置)以及产生细粒度分割掩码,这个阶段可以为抓取检测提供一个先验约束;3)抓取阶段对感知到的属性信息进行聚合,约束和细化抓取矩形的空间位置和宽度,便于生成高质量的抓取姿态。主要过程如下:
通过在真实机器人抓取场景中的实验,证明了我们架构的有效性和优越性以及机器人能够在现实应用中倾听、感知和抓取。具体实验结果展示如下: