A-卷积网络压缩方法总结( 六 )

tf.scalar_mul 函数为对 tf 张量进行固定倍率 scalar 缩放函数 。一般 T 的取值在 1 - 20 之间,这里我参考了开源代码,取值为 3 。我发现在开源代码中 student 模型的训练,有些是和 teacher 模型一起训练的,有些是 teacher 模型训练好后直接指导 student 模型训练 。
六,浅层/轻量网络浅层网络:通过设计一个更浅(层数较少)结构更紧凑的网络来实现对复杂模型效果的逼近, 但是浅层网络的表达能力很难与深层网络相匹敌 。因此,这种设计方法的局限性在于只能应用解决在较为简单问题上 。如分类问题中类别数较少的 task
轻量网络:使用如 MobilenetV2、ShuffleNetv2 等轻量网络结构作为模型的 backbone可以大幅减少模型参数数量 。
参考资料

  1. 神经网络模型压缩和加速之知识蒸馏
  2. https://github.com/chengshengchan/model_compression/blob/master/teacher-student.py
  3. https://github.com/dkozlov/awesome-knowledge-distillation
  4. XNOR-Net
  5. 解析卷积神经网络-深度学习实践手册
  6. 知识蒸馏(Knowledge Distillation)简述(一)
【A-卷积网络压缩方法总结】

经验总结扩展阅读