2019-01-11:计算机所博士生张俊超和彭宇新教授的论文获MMM 2019最佳论文奖
2019年1月8日-11日,第25届多媒体建模国际会议(25th International Conference on Multimedia Modeling, MMM 2019)在希腊塞萨洛尼基举办,计算机所博士生张俊超和导师彭宇新教授的论文“Hierarchical Vision-Language Alignment for Video Captioning”获最佳论文奖(Best Paper Award)。
该论文针对视频的自动文本描述生成(Video Captioning)视觉信息与自然语言文本描述的对齐问题,提出了层次性视觉-语言对齐方法。首先学习视觉内容和文本描述之间不同层次的隐含对齐信息,包括视觉对象-单词、视觉关系-短语、视觉区域-语句三种对齐信息;然后构建了基于二元记忆循环网络的编码器-解码器模型,通过二元记忆循环网络并行地编码全局语义信息和多层次对齐信息,结合注意力机制利用多层次的视觉-语言对齐信息,指导深度解码器生成准确的文本描述语句。
MMM是多媒体领域的重要国际会议,自1993年以来已经举办了25届,旨在为学术研究人员和工程人员提供创新思想和学术交流的平台。MMM 2019共收到投稿论文204篇,它们来自中国、美国、英国、法国等的高校和科研机构,最终接收口头报告论文49篇,接收率24%。
该论文针对视频的自动文本描述生成(Video Captioning)视觉信息与自然语言文本描述的对齐问题,提出了层次性视觉-语言对齐方法。首先学习视觉内容和文本描述之间不同层次的隐含对齐信息,包括视觉对象-单词、视觉关系-短语、视觉区域-语句三种对齐信息;然后构建了基于二元记忆循环网络的编码器-解码器模型,通过二元记忆循环网络并行地编码全局语义信息和多层次对齐信息,结合注意力机制利用多层次的视觉-语言对齐信息,指导深度解码器生成准确的文本描述语句。
MMM是多媒体领域的重要国际会议,自1993年以来已经举办了25届,旨在为学术研究人员和工程人员提供创新思想和学术交流的平台。MMM 2019共收到投稿论文204篇,它们来自中国、美国、英国、法国等的高校和科研机构,最终接收口头报告论文49篇,接收率24%。