2017-02-28:本研究室独立完成的2篇论文被多媒体领域国际会议ICME 2017接收
本研究室的2篇论文被ICME 2017接收,其中一篇为Xin Huang and Yuxin Peng,“Cross-modal Deep Metric Learning with Multi-task Regularization”,另一篇为Yunzhen Zhao and Yuxin Peng,“Saliency-guided video classification via adaptively weighted learning”。祝贺黄鑫同学,赵韫禛同学!
第一篇论文考虑到现有基于深度学习的跨模态检索方法仅仅建模了带标注数据的成对关联和重构误差,忽视了对跨模态语义相似性约束的有效建模,同时也未利用无标注数据的补充信息。针对上述问题,本文提出了一种基于多任务规约的跨模态深度度量学习方法,在统一的多任务学习框架内同时建模两种损失项:四元组排序损失项能够维持跨模态数据间的相对相似性约束,而半监督对比损失项则充分利用了无标注数据的补充信息。本方法不但能够挖掘跨模态语义相似性信息,又能利用无标注数据使得训练信息更加丰富,从而提高了跨模态检索的准确率。该方法的有效性在跨模态数据集Wikipedia、NUS-WIDE-10k上得到了验证。
第二篇论文针对现有基于深度学习的视频分类方法忽略视频不同显著等级区域的划分,而采用同一种模型建模这些区域,导致模型表达能力不足的问题,提出一种基于自适应权重学习的显著性指导视频分类的方法。该方法首先利用视频光流信息无监督的将视频划分为显著区域及非显著区域,并使用三种不同的网络建模这两种区域的内容。之后,考虑不同语义概念的类内和类间关系,针对不同语义类别自适应学习不同的融合权重。本方法不仅更有效的对视频内容进行建模,也通过考虑视频的类内类间关系,取得了更好的融合效果。该方法的有效性在视频分类数据集UCF-101和CCV上得到了验证。
第一篇论文考虑到现有基于深度学习的跨模态检索方法仅仅建模了带标注数据的成对关联和重构误差,忽视了对跨模态语义相似性约束的有效建模,同时也未利用无标注数据的补充信息。针对上述问题,本文提出了一种基于多任务规约的跨模态深度度量学习方法,在统一的多任务学习框架内同时建模两种损失项:四元组排序损失项能够维持跨模态数据间的相对相似性约束,而半监督对比损失项则充分利用了无标注数据的补充信息。本方法不但能够挖掘跨模态语义相似性信息,又能利用无标注数据使得训练信息更加丰富,从而提高了跨模态检索的准确率。该方法的有效性在跨模态数据集Wikipedia、NUS-WIDE-10k上得到了验证。
第二篇论文针对现有基于深度学习的视频分类方法忽略视频不同显著等级区域的划分,而采用同一种模型建模这些区域,导致模型表达能力不足的问题,提出一种基于自适应权重学习的显著性指导视频分类的方法。该方法首先利用视频光流信息无监督的将视频划分为显著区域及非显著区域,并使用三种不同的网络建模这两种区域的内容。之后,考虑不同语义概念的类内和类间关系,针对不同语义类别自适应学习不同的融合权重。本方法不仅更有效的对视频内容进行建模,也通过考虑视频的类内类间关系,取得了更好的融合效果。该方法的有效性在视频分类数据集UCF-101和CCV上得到了验证。