A-卷积网络压缩方法总结( 六 ) _生活百科

tf.scalar_mul 函数为对 tf 张量进行固定倍率 scalar 缩放函数。一般 T 的取值在 1 - 20 之间，这里我参考了开源代码，取值为 3 。我发现在开源代码中 student 模型的训练，有些是和 teacher 模型一起训练的，有些是 teacher 模型训练好后直接指导 student 模型训练。
六，浅层/轻量网络浅层网络：通过设计一个更浅（层数较少）结构更紧凑的网络来实现对复杂模型效果的逼近, 但是浅层网络的表达能力很难与深层网络相匹敌。因此，这种设计方法的局限性在于只能应用解决在较为简单问题上。如分类问题中类别数较少的 task 。
轻量网络：使用如 MobilenetV2、ShuffleNetv2 等轻量网络结构作为模型的 backbone可以大幅减少模型参数数量。
参考资料

神经网络模型压缩和加速之知识蒸馏
https://github.com/chengshengchan/model_compression/blob/master/teacher-student.py
https://github.com/dkozlov/awesome-knowledge-distillation
XNOR-Net
解析卷积神经网络-深度学习实践手册
知识蒸馏（Knowledge Distillation）简述（一）

【A-卷积网络压缩方法总结】