2020-04-04:研究室的1篇视频文本描述生成论文被TIP接收
研究室的1篇视频文本描述生成的论文被IEEE TIP接收为Regular论文:Junchao Zhang and Yuxin Peng, "Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation", IEEE Transactions on Image Processing (TIP), 2020。祝贺张俊超同学!
视频文本描述生成是指计算机自动生成描述视频内容的文本语句,其关键在于如何建模视频动态内容的时空演化,包括视频对象的时序运动和空间关系。此外,视频表征的表达能力也是影响视频文本描述生成效果的重要因素。针对上述问题,本文提出了对象感知时空图方法:在时序运动建模方面,提出双向时序对齐,从正时序、逆时序两个方向构建互补的双向时序图,通过帧间对象对齐获取每个对象的时序运动轨迹;在空间关系建模方面,提出基于图的空间关系学习,构建空间关系图以表示帧内对象的空间位置关系和语义关联,利用图卷积神经网络编码对象的空间关系信息。进一步提出了对象感知的特征聚合模型,基于对象时序轨迹构建局部特征聚合描述子,为每个对象学习表达能力强的对象特征。通过建模视频对象的时序运动信息与对象之间的空间关系信息,学习具有高效表达能力的视频特征,自动生成描述视频内容时空演化的文本语句。本文方法在两个广泛使用的数据集MSR-VTT与MSVD上进行了验证,结果表明能够提高视频文本描述生成的准确率。
视频文本描述生成是指计算机自动生成描述视频内容的文本语句,其关键在于如何建模视频动态内容的时空演化,包括视频对象的时序运动和空间关系。此外,视频表征的表达能力也是影响视频文本描述生成效果的重要因素。针对上述问题,本文提出了对象感知时空图方法:在时序运动建模方面,提出双向时序对齐,从正时序、逆时序两个方向构建互补的双向时序图,通过帧间对象对齐获取每个对象的时序运动轨迹;在空间关系建模方面,提出基于图的空间关系学习,构建空间关系图以表示帧内对象的空间位置关系和语义关联,利用图卷积神经网络编码对象的空间关系信息。进一步提出了对象感知的特征聚合模型,基于对象时序轨迹构建局部特征聚合描述子,为每个对象学习表达能力强的对象特征。通过建模视频对象的时序运动信息与对象之间的空间关系信息,学习具有高效表达能力的视频特征,自动生成描述视频内容时空演化的文本语句。本文方法在两个广泛使用的数据集MSR-VTT与MSVD上进行了验证,结果表明能够提高视频文本描述生成的准确率。