2019-10-03:研究室的1篇文本生成图像论文被TMM接收
研究室的1篇论文被TMM接收为Regular论文:Mingkuan Yuan and Yuxin Peng, "CKD: Cross-task Knowledge Distillation for Text-to-image Synthesis", IEEE Transactions on Multimedia (TMM), 2019。祝贺袁明宽同学!
文本生成图像任务旨在为用户输入的文本自动生成内容一致的图像。但是语义级别的文本与像素级别的图像属于不同模态,导致了语义一致性问题;同时真实图像与生成图像的数据分布也存在差异,导致了图像生成质量问题。为研究以上问题,本文提出了一种跨任务知识蒸馏方法,将知识从多个图像语义理解任务迁移到文本生成图像任务。由于图像语义理解任务包含丰富的跨模态映射知识,可以指导文本生成图像模型将文本映射到图像空间,帮助解决语义一致性与图像生成质量问题。另外,本文设计了一种多阶段知识蒸馏范式,将整个蒸馏过程分解为多个阶段,可以帮助文本生成图像模型有效拟合真实数据的数据分布,并且理解输入文本中蕴含的语义信息,能够生成具备良好语义一致性与生成质量的图像。
文本生成图像任务旨在为用户输入的文本自动生成内容一致的图像。但是语义级别的文本与像素级别的图像属于不同模态,导致了语义一致性问题;同时真实图像与生成图像的数据分布也存在差异,导致了图像生成质量问题。为研究以上问题,本文提出了一种跨任务知识蒸馏方法,将知识从多个图像语义理解任务迁移到文本生成图像任务。由于图像语义理解任务包含丰富的跨模态映射知识,可以指导文本生成图像模型将文本映射到图像空间,帮助解决语义一致性与图像生成质量问题。另外,本文设计了一种多阶段知识蒸馏范式,将整个蒸馏过程分解为多个阶段,可以帮助文本生成图像模型有效拟合真实数据的数据分布,并且理解输入文本中蕴含的语义信息,能够生成具备良好语义一致性与生成质量的图像。