2023年8月12日,云基智能机器人实验室针对服务机器人视觉问答的最新研究成果“Question-conditioned debiasing with focal visual context fusion for visual question answering”被《Knowledge-Based Systems》在线发表,根据2022年12月最新升级版检索,该期刊是计算机科学领域影响力较大的期刊,为JCR一区、中科院分区一区TOP期刊,影响因子为8.139。
该成果主要针对视觉问答模型存在语言偏差以及大多数模型是基于不正确的视觉基础提供答案等问题,提出了一个模型不可知的框架,通过焦点视觉语境融合的问题条件去偏来解决上述问题。具体来说,首先通过去掉问题与出现次数最多的答案之间的shortcut来克服语言分布shortcut。其次,为了避免模型陷入其他频繁答案的分布偏差,我们利用预测答案分布与基础真值的偏差作为伪目标。此外,我们强调图像和问题数量的不平衡,其中问题对视觉环境提出了更高的要求。我们在对比采样的基础上提高了正确的视觉利用能力,并设计了焦点视觉上下文融合模块,将词性标注后从问题中提取的关键目标词融入到视觉特征中,增强了不需要人工标注的突出视觉信息。最后在三个公共基准数据集VQA v2、VQA-CP v2和VQA-CP v1验证了该模型的有效性。
文章链接:https://www.sciencedirect.com/science/article/abs/pii/S0950705123006299