资本市场网
ad1
ad2

AI理解不了“他她它”咋办?动词成为新突破口,机器人听到抹黄油就知道拿刀

来源:IT之家  时间:2022-12-03 10:11  阅读量:7946   

给AI下指令的时候,总觉得和人交流不一样。

AI理解不了“他她它”咋办?动词成为新突破口,机器人听到抹黄油就知道拿刀

是的,虽然AI可以理解一些特定的人类指令,比如:

帮我从餐厅拿把椅子。

但如果改成只有代词和动词的模糊指令,AI会很困惑:

帮我找个能垫脚的东西。

现在,终于有研究人员提出了一种新的处理方法:AI不能学习理解动词吗。

动词本身和一些特定的名词绑定在一起比如抹黄油这个动作,肯定离不开刀叉之类的名词

只需要将它们进行匹配,无需刀叉等名词指令,AI也能准确找出目标对象:

目前,该论文正式收录于NeurIPS 2022,相关模型已经开源:

那么它是如何训练AI理解动词的呢。

盖名词,让AI看图找东西

本文提出了一个称为TOIST的框架。

TOIST面向任务的实例分割转换器,这是一种基于转换器的实例分割新方案。

实例分割不同于语义分割的全图切割,它还具有目标检测的特点。比如下图直接找出与名词两厢对应的对象:

此前,案件分割模型通常分为两步第一步是检测可能的目标,第二步是对可能的目标进行排序并预测最可能的结果

但与这种方式不同的是,TOIST框架直接采用了一个整体的Transformer框架,其中解码器中的自我关注机制可以建立候选目标之间的偏好关系。

TOIST框架分为三个部分。

其中,多模态编码器负责提取特征标记,变换器编码器负责聚合两种模式的特征,并基于变换器解码器中的注意机制预测最合适的目标。

随后,提出了一种新的名词—代词提取方法来训练模型。

具体来说,基于知识提炼框架,以无监督学习的方式训练AI通过上下文猜测名词原型。

比如原来的实例分割任务是用滑板挖洞,但是在训练模型的时候,名词滑板会被代词某物代替:

这种分割效果在实际案例中表现如何。

目标探测准确率提高10.9%

本文在大规模任务数据集COCO—Tasks上对TOIST进行了测试。

评价方法采用mAP,常见于目标检测等视觉任务。

简单来说,TOIST在例如分割和目标检测方面比以前的SOTA模型表现得更好,而添加了名词代词提取方法的增强版TOIST的表现比TOIST in好上一层楼。

与目前最好的Yolo+GGNN相比,增强版TOIST的决策帧精度图在目标检测任务中提高了10.9%,在案例分割任务中,mask精度比Mask—RCNN+GGNN提高了6.6%。

对于名词—代词提取方法,与TOIST的原始版本相比,实例切分的准确率分别提高了2.8%和3.8%。

在具体的案例表现上,模型效果也非常接近实际的分割真值。

比如图中,算法甚至识别出啤酒瓶盖可以用桌子打开,在理解上可以说是满分:

我们实验室其实是负责机器人的研究的,但是在平时的调查中发现,用户有时候更喜欢向机器人描述需求,而不是直接告诉他们该做什么。

换句话说,AI算法是用来让机器人想得更多,而不仅仅是一个听从命令的助手。

李鹏飞,清华大学智能产业研究院博士生,毕业于中国科学院大学他的研究兴趣是自动驾驶和计算机视觉

对大视觉—语言模型感兴趣的朋友可以试试这个新思路~

论文地址:

项目地址:

编辑:叶知秋

图文