2019-09-25:研究室的1篇跨媒体推理论文被TOMM接收
研究室的1篇论文被TOMM接收为Regular论文:Xin Huang, Yuxin Peng and Zhang Wen, "RCE-HIL: Recognizing Cross-media Entailment with Heterogeneous Interactive Learning", ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2019。祝贺黄鑫同学!
蕴涵推理是一种重要的基本推理形式,指的是计算机依据给定的前提,自动判断结论是否成立。人类的知识与推理过程一般有视觉、语言等感官的共同参与,然而现有方法主要是基于语言的前提与结论的推理,这大大限制了推理的广度与深度。针对上述问题,本文提出了异构交互学习的跨媒体蕴涵推理方法,支持基于图像、文本前提的蕴涵推理。首先,提出了跨媒体交互注意力学习方法,实现了图像-文本、文本-文本的细粒度语义对齐,能够充分学习跨媒体的局部关联关系。其次,提出了异构张量空间构建方法,将图像和文本的特征建模在同一个张量中,形成支持蕴涵推理的异构空间,同时挖掘图像、文本前提和结论间的推理线索,提升蕴涵推理的准确率。本文基于文本蕴涵推理数据集SNLI,引入Flickr30k中的相应图像前提进行实验验证,表明了本文方法的有效性。
蕴涵推理是一种重要的基本推理形式,指的是计算机依据给定的前提,自动判断结论是否成立。人类的知识与推理过程一般有视觉、语言等感官的共同参与,然而现有方法主要是基于语言的前提与结论的推理,这大大限制了推理的广度与深度。针对上述问题,本文提出了异构交互学习的跨媒体蕴涵推理方法,支持基于图像、文本前提的蕴涵推理。首先,提出了跨媒体交互注意力学习方法,实现了图像-文本、文本-文本的细粒度语义对齐,能够充分学习跨媒体的局部关联关系。其次,提出了异构张量空间构建方法,将图像和文本的特征建模在同一个张量中,形成支持蕴涵推理的异构空间,同时挖掘图像、文本前提和结论间的推理线索,提升蕴涵推理的准确率。本文基于文本蕴涵推理数据集SNLI,引入Flickr30k中的相应图像前提进行实验验证,表明了本文方法的有效性。