2023-01-03:研究室的1篇图像-文本跨媒体检索论文被TOMM接收
研究室的1篇论文被TOMM接收为Regular论文:Duoduo Feng, Xiangteng He and Yuxin Peng, "MKVSE: Multimodal Knowledge Enhanced Visual-Semantic Embedding for Image-Text Retrieval", ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2023。祝贺冯多多同学!
图像-文本跨媒体检索旨在通过查询文本(图像)来检索语义最相关的图像(文本)。当图像包含文本中未直接描述的信息时,现有工作忽略了图像-文本之间的隐含多模态知识关系(如图像对象“水龙头”和文本词语“清洗”之前的关联关系),阻碍了图像和文本的关联能力。针对上述问题,本文提出了多模态知识增强的视觉语义嵌入方法,构建多模态知识图谱来显式建模隐含多模态知识关系并融入图像文本的语义嵌入中,提升跨媒体检索效果。首先,提出了基于隐含关系的多模态知识图谱,将图像和文本之间的隐含多模态知识关系显式表示为模态内语义关系和模态间共现关系,有助于在更高层次的语义空间中建立可靠的图像-文本关联;其次,提出了两步推理的多模态图卷积网络,聚焦于多模态知识关系的不同方面来增强图像和文本的语义嵌入,提升了图像-文本的关联能力。在两个广泛使用的数据集Flickr30K和MSCOCO上进行了实验,结果表明了提出方法的有效性。
图像-文本跨媒体检索旨在通过查询文本(图像)来检索语义最相关的图像(文本)。当图像包含文本中未直接描述的信息时,现有工作忽略了图像-文本之间的隐含多模态知识关系(如图像对象“水龙头”和文本词语“清洗”之前的关联关系),阻碍了图像和文本的关联能力。针对上述问题,本文提出了多模态知识增强的视觉语义嵌入方法,构建多模态知识图谱来显式建模隐含多模态知识关系并融入图像文本的语义嵌入中,提升跨媒体检索效果。首先,提出了基于隐含关系的多模态知识图谱,将图像和文本之间的隐含多模态知识关系显式表示为模态内语义关系和模态间共现关系,有助于在更高层次的语义空间中建立可靠的图像-文本关联;其次,提出了两步推理的多模态图卷积网络,聚焦于多模态知识关系的不同方面来增强图像和文本的语义嵌入,提升了图像-文本的关联能力。在两个广泛使用的数据集Flickr30K和MSCOCO上进行了实验,结果表明了提出方法的有效性。