该方法可能存在的问题:模态差异性太大,无法对齐导致效果不好 。。。
method4:self-supervised learning原先的动态系数\(k_t\)只对encoder部分进行动态调节,来使得弱势模态优化得到提升,这种方法是有点后天培养的意思,那么为啥不能直接就让encoder先天就比较厉害呢?这样我不怎么需要优化就perform well了~于是就想到了利用自监督,自监督是目前比较火的方向,通过在上游任务中先进行预训练然后应用到下游任务中往往效果比较好 。
一种可行的方式参考论文::Unsupervised learning of visual representations by solving jigsaw puzzles(ECCV 2016)
为了恢复原始的小块,Noroozi等人提出了一个称为上下文无关网络(CFN)的神经网络,如下图所示 。在这里,各个小块通过相同的共享权值的siamese卷积层传递 。然后,将这些特征组合在一个全连接的层中 。在输出中,模型必须预测在64个可能的排列类别中使用了哪个排列,如果我们知道排列的方式,我们就能解决这个难题 。
为了解决拼图问题,模型需要学习识别零件是如何在一个物体中组装的,物体不同部分的相对位置和物体的形状 。因此,这些表示对于下游的分类和检测任务是有用的 。
本任务中的应用流程
- 自监督预训练好各自模态的encoderA和encoderB
- 按OGM-GE实验进行的架构进行Fine-tune
由于二阶双线性池化存在维度过高,计算量过大的问题,后续的很多work都对它进行降维处理,比较的典型的就是表征能力较强的MFB方法,由于本人对于vqa领域了解不深,故不在此展开 。