北京大学王选计算机研究所多媒体信息处理研究室

Document Title

主页

新闻

2019-01-11：计算机所博士生张俊超和彭宇新教授的论文获MMM 2019最佳论文奖

       2019年1月8日-11日，第25届多媒体建模国际会议（25th International Conference on Multimedia Modeling, MMM 2019）在希腊塞萨洛尼基举办，计算机所博士生张俊超和导师彭宇新教授的论文“Hierarchical Vision-Language Alignment for Video Captioning”获最佳论文奖（Best Paper Award）。
       该论文针对视频的自动文本描述生成（Video Captioning）视觉信息与自然语言文本描述的对齐问题，提出了层次性视觉-语言对齐方法。首先学习视觉内容和文本描述之间不同层次的隐含对齐信息，包括视觉对象-单词、视觉关系-短语、视觉区域-语句三种对齐信息；然后构建了基于二元记忆循环网络的编码器-解码器模型，通过二元记忆循环网络并行地编码全局语义信息和多层次对齐信息，结合注意力机制利用多层次的视觉-语言对齐信息，指导深度解码器生成准确的文本描述语句。
       MMM是多媒体领域的重要国际会议，自1993年以来已经举办了25届，旨在为学术研究人员和工程人员提供创新思想和学术交流的平台。MMM 2019共收到投稿论文204篇，它们来自中国、美国、英国、法国等的高校和科研机构，最终接收口头报告论文49篇，接收率24%。

论文下载: Hierarchical Vision-Language Alignment for Video Captioning【pdf】