2019-02-25:研究室的1篇视频自动文本描述生成的论文被CVPR 2019接收
研究室独立完成的1篇论文被CVPR 2019接收:Junchao Zhang and Yuxin Peng, "Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning", 32th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, Jun. 16-20, 2019。CVPR是计算机视觉与模式识别领域的顶级国际会议,也是CCF推荐的A类国际会议。祝贺张俊超同学!
视频的自动文本描述生成不仅需要建模视频的全局信息,还需要建模视频中对象的动态时序演化的细节信息,后者对于理解视频内容以及生成准确的文本描述至关重要。另外,构建编码细粒度时空信息的视频表征也是影响文本描述准确性的重要因素。针对上述问题,本文提出了一种对象感知的双向时空聚合方法。一方面提出了双向时序图,通过正、反两个方向的对偶时序图构建视频中每个对象的动态时序轨迹,建模视频的细节时序动态性;另一方面提出了对象感知的特征聚合,通过卷积门限循环网络为每个视频对象构建时空局部特征聚合描述子,学习具有辨识力的对象感知视频表征。本文方法在两个广泛使用的数据集上进行了验证,提高了视频自动生成文本描述的准确率。
视频的自动文本描述生成不仅需要建模视频的全局信息,还需要建模视频中对象的动态时序演化的细节信息,后者对于理解视频内容以及生成准确的文本描述至关重要。另外,构建编码细粒度时空信息的视频表征也是影响文本描述准确性的重要因素。针对上述问题,本文提出了一种对象感知的双向时空聚合方法。一方面提出了双向时序图,通过正、反两个方向的对偶时序图构建视频中每个对象的动态时序轨迹,建模视频的细节时序动态性;另一方面提出了对象感知的特征聚合,通过卷积门限循环网络为每个视频对象构建时空局部特征聚合描述子,学习具有辨识力的对象感知视频表征。本文方法在两个广泛使用的数据集上进行了验证,提高了视频自动生成文本描述的准确率。