2019-11-24:研究室的1篇跨媒体检索论文被TIP接收
研究室的1篇跨媒体检索论文被TIP接收为Regular论文: Yuxin Peng, Jinwei Qi and Yunkan Zhuo, "MAVA: Multi-level Adaptive Visual-textual Alignment by Cross-media Bi-attention Mechanism", IEEE Transactions on Image Processing (TIP), Vol. 29, No. 1, pp. 2728-2741, Dec. 2020。祝贺綦金玮,卓昀侃同学!
现有跨媒体检索方法一般只关注不同媒体数据之间(例如图像与文本)的关联,或者是显著区域之间(例如图像显著区域与文本关键词)的关联,而忽视了不同细粒度区域的关系之间(例如图像中人和物体的关系与文本中对应片段所描述的关系)所蕴含的复杂关联信息。针对上述问题,本文提出了一种多层次自适应视觉与文本对齐方法,通过跨媒体多路细粒度网络模型同时建模多媒体数据的不同层次的关联信息:其中全局子网络模型建模了图像与文本媒体之间的关联信息,局部子网络模型建模图像细粒度区域与文本细粒度片段之间的关联信息,关系子网络模型建模了图像不同细粒度区域之间的关系与对应文本片段所描述的关系之间的关联信息。本文提出了视觉与文本的双重注意力机制,实现图像与文本的显著区域之间更加准确的关联信息挖掘,同时还提出跨媒体多层次自适应对齐方法,通过聚焦于蕴含丰富关联关系的图像文本对或图像文本的细粒度局部区域对,促进了本文模型对不同层次关联关系的学习,提高了跨媒体检索的准确率。
现有跨媒体检索方法一般只关注不同媒体数据之间(例如图像与文本)的关联,或者是显著区域之间(例如图像显著区域与文本关键词)的关联,而忽视了不同细粒度区域的关系之间(例如图像中人和物体的关系与文本中对应片段所描述的关系)所蕴含的复杂关联信息。针对上述问题,本文提出了一种多层次自适应视觉与文本对齐方法,通过跨媒体多路细粒度网络模型同时建模多媒体数据的不同层次的关联信息:其中全局子网络模型建模了图像与文本媒体之间的关联信息,局部子网络模型建模图像细粒度区域与文本细粒度片段之间的关联信息,关系子网络模型建模了图像不同细粒度区域之间的关系与对应文本片段所描述的关系之间的关联信息。本文提出了视觉与文本的双重注意力机制,实现图像与文本的显著区域之间更加准确的关联信息挖掘,同时还提出跨媒体多层次自适应对齐方法,通过聚焦于蕴含丰富关联关系的图像文本对或图像文本的细粒度局部区域对,促进了本文模型对不同层次关联关系的学习,提高了跨媒体检索的准确率。