2020-01-09:研究室的1篇视觉常识推理论文被TCSVT接收
研究室的1篇视觉常识推理的论文被TCSVT接收为Regular论文:Zhang Wen and Yuxin Peng, "Multi-level Knowledge Injecting for Visual Commonsense Reasoning", IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2020。祝贺文章同学!
人类只需看一眼图像,就能很容易地进行一系列的推理,例如,推断事件的起因、物体的功能、人的行为以及意图等。然而,对于今天的计算机来说,虽然在识别领域取得了很大的进步,但是由于缺乏人类常识,回答这样的视觉推理问题却是非常困难的。为了缩短计算机从识别(recognition)到认知(cognition)的鸿沟,本文通过引入人类常识知识来支持视觉推理任务。首先,提出了一种多层次的知识迁移网络,以文本领域常识推理数据集SWAG为知识源,在源编码器与目标编码器之间实现基于单元级别(cell-level)、层级别(layer-level)和注意力级别(attention-level)的多级知识迁移,以充分利用源域知识,促进目标域的表征学习。其次,为了进一步促进视觉语义理解,本文提出了一种基于知识增强的视觉注意力机制,将迁移的知识与视觉内容关联起来并融合细粒度与全局的推理线索,得到最终答案,提高了推理的准确率。本文基于视觉常识推理数据集VCR展开实验验证,表明了本文方法的有效性。
相关链接: IEEE TCSVT 2021 | 基于外部知识的视觉常识推理模型
人类只需看一眼图像,就能很容易地进行一系列的推理,例如,推断事件的起因、物体的功能、人的行为以及意图等。然而,对于今天的计算机来说,虽然在识别领域取得了很大的进步,但是由于缺乏人类常识,回答这样的视觉推理问题却是非常困难的。为了缩短计算机从识别(recognition)到认知(cognition)的鸿沟,本文通过引入人类常识知识来支持视觉推理任务。首先,提出了一种多层次的知识迁移网络,以文本领域常识推理数据集SWAG为知识源,在源编码器与目标编码器之间实现基于单元级别(cell-level)、层级别(layer-level)和注意力级别(attention-level)的多级知识迁移,以充分利用源域知识,促进目标域的表征学习。其次,为了进一步促进视觉语义理解,本文提出了一种基于知识增强的视觉注意力机制,将迁移的知识与视觉内容关联起来并融合细粒度与全局的推理线索,得到最终答案,提高了推理的准确率。本文基于视觉常识推理数据集VCR展开实验验证,表明了本文方法的有效性。
相关链接: IEEE TCSVT 2021 | 基于外部知识的视觉常识推理模型