Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer( 五 )


文章插图
这里\(SM(x,y) = exp(x^Ty)\)也就是原 。始的注意力矩阵,按照\(f(x)=exp(w^Tx-\frac{||x||^2}{2})\)对Q和K进行变换后,QK内积的期望就等于原始的注意力矩阵 。不过在实际计算中只能对随机变量w进行有限次采样, 因此是近似原始注意力矩阵 。论文有大量篇幅在进行推导和证明,这里就不做展开了 。
效果对比我们直接参考Google给出的效果对比,横轴是速度,纵轴是效果(多任务平均值),点的大小是内存 。整体上BigBird还是拔得头筹,它并不是所有任务的SOTA但是整体效果稳定优秀,想看详细对比结果的参考REF2~

Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer

文章插图

经验总结扩展阅读