2023年2月2日,云基智能机器人实验室针对服务机器人视觉问答的最新研究成果“Be flexible! learn to debias by sampling and prompting for robust visual question answering”被《Information Processing and Management》在线发表,根据2022年12月最新升级版检索,该期刊是计算机科学领域影响力较大的期刊,为JCR一区、中科院一区期刊,影响因子为7.466。
该成果主要针对VQA模型对分布外的测试数据进行泛化的问题,提出了一个新的VQA去偏框架,通过学习图像问题和给定问题提示(LSP)配对的样本。具体而言,我们构建了具有一定采样率的负图像-问题对,以防止模型过度依赖视觉shortcut内容。值得注意的是,问题类型为回答问题提供了强有力的暗示。我们利用问题类型来约束负面问题-图像对的采样过程,并进一步学习问题类型引导的提示,以更好地理解问题。最后,我们在VQA-CP v2和VQA v2公共基准数据集上进行的大量实验表明,我们的模型在总体精度上达到了最优水平。
文章链接:https://www.sciencedirect.com/science/article/abs/pii/S030645732300033X