2018-07-02:研究室的4篇论文被多媒体领域的CCF A类国际会议ACM MM 2018接收
本研究室今年接收4篇ACM MM 2018论文,其中3篇论文被录取为oral paper,分别是关于跨媒体检索、图像细分类、文本到图像生成。这是我们今年6篇论文被IJCAI 2018录取后取得的又一成绩。祝贺綦金玮、何相腾、袁明宽、叶钊达和卓昀侃同学!
The 26th ACM Multimedia Conference (ACM MM)将于2018年10月22日到26日在韩国首尔举行。ACM MM是CCF推荐的A类会议,本次大会共有757 篇论文提交,共录取64篇oral paper(录取率为8.5%),144篇poster paper(录取率为27.5%)。
这4篇论文的主要研究内容如下:
(1) Life-long Cross-media Correlation Learning (oral)【pdf】
作者:綦金玮(硕士生),彭宇新,卓昀侃(硕士生)
随着图像、文本等多媒体数据和语义类别的不断增长,对大规模多媒体数据进行存储和重复训练变得不可行。因此,如何在只利用新增数据对模型进行增量训练的同时,保持模型在原有数据上的关联检索效果,就成为跨媒体检索的一个重要问题。本文将终身学习机制引入到跨媒体检索中,提出了跨媒体终身学习方法,能够利用从已有数据中学习到的知识促进新增数据的关联学习。首先,提出了跨媒体自适应网络,通过高层知识共享以及自适应网络扩容,支持新增数据的关联学习。然后,提出了跨媒体终身学习策略,包括域内的分布对齐和域间的知识蒸馏,在充分保留原有数据关联检索效果的同时,通过知识迁移促进新增数据的关联学习。实验结果验证了本文方法在多个跨媒体数据集上的终身学习效果。
(2) Only Learn One Sample: Fine-Grained Visual Categorization with One Sample Training(oral)【pdf】
作者:何相腾(博士生),彭宇新
现有细粒度图像分类方法均基于深度学习,他们依赖大量的训练标注数据。但是,细粒度图像标注耗时耗力,并且要求标注人员具有领域内的专业知识,成本巨大。因此,如何在使用少量甚至一个训练样本的前提下对细粒度图像进行分类,就成为一个具有重要意义的难题。本文提出了一种新的数据增广方法,在一个训练样本的基础上进行数据扩充,提高了细粒度图像分类的准确率。我们提出的数据增广方法包括4个阶段:数据分割、数据过滤、数据再选择和数据生成。其中,数据分割和数据生成旨在产生与图像对象及其部件相关的图像块,并根据文本描述生成新的图像数据;数据过滤和数据再选择旨在对生成的数据进行过滤选择,剔除掉噪音信息。实验结果验证了我们方法的有效性。
(3) Text-to-image Synthesis via Symmetrical Distillation Networks(oral)【pdf】【arXiv】
作者:袁明宽(博士生),彭宇新
文本到图像生成旨在为用户提供的文本生成内容一致的图像,但是语义级别的文本与像素级别的图像在内容和形式上都存在很大的差异,并且真实图像与生成图像的数据分布也存在一定差异。为研究以上问题,本文考虑了在判别问题领域的一种范式:首先在大数据集上进行预训练得到一个通用的特征表达模型,然后在特定任务数据集上进行自动调整。生成问题领域虽没有这样的通用模型,但通用判别模型具有强大的多层特征表达能力,可以用来增强生成模型。因为通用判别模型是基于图像分类实现的,所以其高层特征具备与图像类别标签相关的语义信息,同时低层特征具备与图像像素内容相关的结构信息,这与文本生成图像模型中利用的特征表达一致。本文提出了对称蒸馏网络SDN,该网络由一个源判别模型和一个目标生成模型组成,其中目标生成模型具有与源判别模型对称的结构,可以将通用判别模型的知识蒸馏到文本生成图像模型中。最终能够自动生成在内容上符合文本描述的图像。
(4) Multi-Scale Correlation for Sequential Cross-modal Hashing Learning(poster)【pdf】
作者:叶钊达(本科生,已保送直博),彭宇新
现有跨媒体哈希方法一般通过挖掘全局特征之间的关联以实现跨媒体哈希函数的学习,忽视了多媒体数据具有的多尺度特征,且不同尺度特征之间存在关联的特性。针对上述问题,本文提出了序列化多尺度特征哈希方法,充分利用了多尺度特征并实现了多尺度特征之间关联的挖掘,取得了更好的检索效果。首先,提出了多尺度特征指导的序列化哈希函数学习,利用不同尺度的特征共同指导哈希函数的学习,避免了单一特征异常导致错误哈希码的生成,提高了生成哈希码的鲁棒性。其次,提出了基于特征对齐的尺度间关联挖掘策略,能够挖掘不同尺度特征之间的关联关系,为哈希函数学习提供了大量关联信息,提高了生成哈希码的检索准确率。
The 26th ACM Multimedia Conference (ACM MM)将于2018年10月22日到26日在韩国首尔举行。ACM MM是CCF推荐的A类会议,本次大会共有757 篇论文提交,共录取64篇oral paper(录取率为8.5%),144篇poster paper(录取率为27.5%)。
这4篇论文的主要研究内容如下:
(1) Life-long Cross-media Correlation Learning (oral)【pdf】
作者:綦金玮(硕士生),彭宇新,卓昀侃(硕士生)
随着图像、文本等多媒体数据和语义类别的不断增长,对大规模多媒体数据进行存储和重复训练变得不可行。因此,如何在只利用新增数据对模型进行增量训练的同时,保持模型在原有数据上的关联检索效果,就成为跨媒体检索的一个重要问题。本文将终身学习机制引入到跨媒体检索中,提出了跨媒体终身学习方法,能够利用从已有数据中学习到的知识促进新增数据的关联学习。首先,提出了跨媒体自适应网络,通过高层知识共享以及自适应网络扩容,支持新增数据的关联学习。然后,提出了跨媒体终身学习策略,包括域内的分布对齐和域间的知识蒸馏,在充分保留原有数据关联检索效果的同时,通过知识迁移促进新增数据的关联学习。实验结果验证了本文方法在多个跨媒体数据集上的终身学习效果。
(2) Only Learn One Sample: Fine-Grained Visual Categorization with One Sample Training(oral)【pdf】
作者:何相腾(博士生),彭宇新
现有细粒度图像分类方法均基于深度学习,他们依赖大量的训练标注数据。但是,细粒度图像标注耗时耗力,并且要求标注人员具有领域内的专业知识,成本巨大。因此,如何在使用少量甚至一个训练样本的前提下对细粒度图像进行分类,就成为一个具有重要意义的难题。本文提出了一种新的数据增广方法,在一个训练样本的基础上进行数据扩充,提高了细粒度图像分类的准确率。我们提出的数据增广方法包括4个阶段:数据分割、数据过滤、数据再选择和数据生成。其中,数据分割和数据生成旨在产生与图像对象及其部件相关的图像块,并根据文本描述生成新的图像数据;数据过滤和数据再选择旨在对生成的数据进行过滤选择,剔除掉噪音信息。实验结果验证了我们方法的有效性。
(3) Text-to-image Synthesis via Symmetrical Distillation Networks(oral)【pdf】【arXiv】
作者:袁明宽(博士生),彭宇新
文本到图像生成旨在为用户提供的文本生成内容一致的图像,但是语义级别的文本与像素级别的图像在内容和形式上都存在很大的差异,并且真实图像与生成图像的数据分布也存在一定差异。为研究以上问题,本文考虑了在判别问题领域的一种范式:首先在大数据集上进行预训练得到一个通用的特征表达模型,然后在特定任务数据集上进行自动调整。生成问题领域虽没有这样的通用模型,但通用判别模型具有强大的多层特征表达能力,可以用来增强生成模型。因为通用判别模型是基于图像分类实现的,所以其高层特征具备与图像类别标签相关的语义信息,同时低层特征具备与图像像素内容相关的结构信息,这与文本生成图像模型中利用的特征表达一致。本文提出了对称蒸馏网络SDN,该网络由一个源判别模型和一个目标生成模型组成,其中目标生成模型具有与源判别模型对称的结构,可以将通用判别模型的知识蒸馏到文本生成图像模型中。最终能够自动生成在内容上符合文本描述的图像。
(4) Multi-Scale Correlation for Sequential Cross-modal Hashing Learning(poster)【pdf】
作者:叶钊达(本科生,已保送直博),彭宇新
现有跨媒体哈希方法一般通过挖掘全局特征之间的关联以实现跨媒体哈希函数的学习,忽视了多媒体数据具有的多尺度特征,且不同尺度特征之间存在关联的特性。针对上述问题,本文提出了序列化多尺度特征哈希方法,充分利用了多尺度特征并实现了多尺度特征之间关联的挖掘,取得了更好的检索效果。首先,提出了多尺度特征指导的序列化哈希函数学习,利用不同尺度的特征共同指导哈希函数的学习,避免了单一特征异常导致错误哈希码的生成,提高了生成哈希码的鲁棒性。其次,提出了基于特征对齐的尺度间关联挖掘策略,能够挖掘不同尺度特征之间的关联关系,为哈希函数学习提供了大量关联信息,提高了生成哈希码的检索准确率。