2019-01-10:研究室的1篇细粒度视觉-文本表示学习论文被TCSVT接收
本研究室的1篇论文被TCSVT接收为Regular论文:Xiangteng He and Yuxin Peng, “Fine-grained Visual-textual Representation Learning”, IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2019。祝贺何相腾同学!
考虑到文本描述提供了颜色、形态结构等细粒度属性和语义信息(如“grey body”,“orange bill”等),与视觉信息互为补充,本文提出了细粒度视觉-文本表示学习(VTRL)方法。首先,提出细粒度视觉-文本模式挖掘方法,通过生成式对抗网络联合建模视觉和文本信息,挖掘具有辨识性的细粒度视觉-文本对,有效地提升了细节表示能力;其次,提出视觉-文本表示学习方法,构建相容函数,联合考虑视觉、文本提供的多源语义信息,利用二者差异性和互补性,学习更具辨识力的视觉表示。该方法在CUB-200-2011和Oxford Flowers-102两个广泛使用的细粒度图像分类数据集上验证了有效性。
考虑到文本描述提供了颜色、形态结构等细粒度属性和语义信息(如“grey body”,“orange bill”等),与视觉信息互为补充,本文提出了细粒度视觉-文本表示学习(VTRL)方法。首先,提出细粒度视觉-文本模式挖掘方法,通过生成式对抗网络联合建模视觉和文本信息,挖掘具有辨识性的细粒度视觉-文本对,有效地提升了细节表示能力;其次,提出视觉-文本表示学习方法,构建相容函数,联合考虑视觉、文本提供的多源语义信息,利用二者差异性和互补性,学习更具辨识力的视觉表示。该方法在CUB-200-2011和Oxford Flowers-102两个广泛使用的细粒度图像分类数据集上验证了有效性。