CVPR2022 Oral OGM-GE阅读笔记( 二 ) _生活百科

一般知识蒸馏的做法是单独用student去预测的，但这里可以进行模态fusion实现共同预测。

解决的问题本质都是模态不均衡，但思路不同，这个方法侧重于使弱模态从本质上变强。
该方法可能存在的问题：模态差异性太大，无法对齐导致效果不好。。。
method4：self-supervised learning原先的动态系数\(k_t\)只对encoder部分进行动态调节，来使得弱势模态优化得到提升，这种方法是有点后天培养的意思，那么为啥不能直接就让encoder先天就比较厉害呢？这样我不怎么需要优化就perform well了~于是就想到了利用自监督，自监督是目前比较火的方向，通过在上游任务中先进行预训练然后应用到下游任务中往往效果比较好。
一种可行的方式参考论文:：Unsupervised learning of visual representations by solving jigsaw puzzles（ECCV 2016）
为了恢复原始的小块，Noroozi等人提出了一个称为上下文无关网络（CFN）的神经网络，如下图所示。在这里，各个小块通过相同的共享权值的siamese卷积层传递。然后，将这些特征组合在一个全连接的层中。在输出中，模型必须预测在64个可能的排列类别中使用了哪个排列，如果我们知道排列的方式，我们就能解决这个难题。
为了解决拼图问题，模型需要学习识别零件是如何在一个物体中组装的，物体不同部分的相对位置和物体的形状。因此，这些表示对于下游的分类和检测任务是有用的。
本任务中的应用流程

自监督预训练好各自模态的encoderA和encoderB
按OGM-GE实验进行的架构进行Fine-tune

method5：bilnearl poolingOGM-GE架构中存在的另一个问题是concat的方式模态之间融合还不够充分，哪怕实验中所展示的其他fusion方式也是比较的简单的，算是一阶融合，这样就导致互相之间不同模态特征之间融合太少，学习不够充分，也可能间接导致弱势模态学的不够好，因此可以改变融合策略考虑用二阶融合，比如二阶双线性池化
由于二阶双线性池化存在维度过高，计算量过大的问题，后续的很多work都对它进行降维处理，比较的典型的就是表征能力较强的MFB方法，由于本人对于vqa领域了解不深，故不在此展开。