2018-11-03:研究室的1篇跨模态迁移学习论文被TCYB接收
本研究室的1篇论文被TCYB接收为Regular论文:Xin Huang, Yuxin Peng, and Mingkuan Yuan, "MHTN: Modal-adversarial Hybrid Transfer Network for Cross-modal Retrieval", IEEE Transactions on Cybernetics (TCYB), 2018。TCYB是中科院一区Top期刊,最新影响因子是8.803。祝贺黄鑫同学,袁明宽同学!
现有跨模态检索方法往往依赖于大量标注数据进行模型训练。然而,跨模态数据的标注成本巨大。如标注“北京大学”的数据,需要标注人员同时看图像、读文本、听音频、看视频、看3D图形,造成了极大的人工标注成本。因此,如何利用已有单一模态的标注数据,支持跨模态模型训练,就成为了一个重要的问题。针对上述问题,本文提出了模态对抗混合迁移网络(MHTN)方法。MHTN是包含两个子网络的端到端结构:(1)模态共享知识迁移网络能够将知识从源域的一种模态同时迁移到目标域的所有模态中。我们通过构建星型网络结构,从单一模态中提取出通用的互补语义知识,提升跨模态统一表征的表达效果。(2)模态对抗语义学习网络能够通过对抗学习机制,使得统一表征生成器与模态判别器在知识迁移过程中相互促进。这样使得生成的统一表征在增强语义判别能力的同时,提升其跨模态语义一致性,从而更适合于跨模态检索任务。本文方法的有效性在4个广泛使用的跨模态数据集Wikipedia,NUS-WIDE-10k、Pascal Sentences以及包含5种模态的PKU XMedia上得到了验证。
论文下载: MHTN: Modal-adversarial Hybrid Transfer Network for Cross-modal Retrieval【pdf】
现有跨模态检索方法往往依赖于大量标注数据进行模型训练。然而,跨模态数据的标注成本巨大。如标注“北京大学”的数据,需要标注人员同时看图像、读文本、听音频、看视频、看3D图形,造成了极大的人工标注成本。因此,如何利用已有单一模态的标注数据,支持跨模态模型训练,就成为了一个重要的问题。针对上述问题,本文提出了模态对抗混合迁移网络(MHTN)方法。MHTN是包含两个子网络的端到端结构:(1)模态共享知识迁移网络能够将知识从源域的一种模态同时迁移到目标域的所有模态中。我们通过构建星型网络结构,从单一模态中提取出通用的互补语义知识,提升跨模态统一表征的表达效果。(2)模态对抗语义学习网络能够通过对抗学习机制,使得统一表征生成器与模态判别器在知识迁移过程中相互促进。这样使得生成的统一表征在增强语义判别能力的同时,提升其跨模态语义一致性,从而更适合于跨模态检索任务。本文方法的有效性在4个广泛使用的跨模态数据集Wikipedia,NUS-WIDE-10k、Pascal Sentences以及包含5种模态的PKU XMedia上得到了验证。