预备知识

BIFPN

参考链接:Bi FPN - 知乎 (zhihu.com)

随着网络层数的加深,网络的感受野逐渐变大,语义表达能力也随之增强,但是这也使得图像的分辨率降低,很多细节特征经过多层网络的卷积操作后变得越来越模糊。浅层神经网络的感受野小,细节特征的表达能力强,但是提取的特征语义性较弱。因此为了获得强语义性的特征,传统的目标检测模型通常只采用特征提取网络最后一层输出的特征图进行物体的分类与定位。而最后一个特征图对应的下采样率较大,一般为16、32倍下采样。这就造成小目标在最后一个特征图上的有效信息较少,小目标的检测能力降低,这被称为多尺度问题。多尺度特征融合很好的解决了这个问题,其不再是只将最后一层的特征图用于检测,而是选择多层的特征进行融合再进行检测。

高效的多尺度特征融合 自FPN[2]引入以来,FPN已被广泛应用于多尺度特征融合。最近,PANET、NAS-FPN和其他研究开发了更多的跨尺度特征融合网络结构。在融合不同的输入特征的同时,大多数以前的工作只是不加区分地总结它们;然而,由于这些不同的输入特征具有不同的分辨率,我们观察到它们通常对融合的输出特征作出不平等的贡献。为了解决这一问题,作者提出了一个简单而高效的加权双向特征金字塔网络(BiFPN),它引入可学习的权重来学习不同输入特征的重要性,同时反复应用自顶向下和自底向上的多尺度特征融合。(本文重点探讨的问题)

在本文中,我们旨在以一种更加直观和有原则的方式优化多尺度特征融合。

模型效率在计算机视觉领域中越来越重要。作者研究了神经网络结构在目标检测中的设计选择,并提出了提高检测效率的几个关键优化方案。首先提出了一种加权双向特征金字塔网络(BiFPN),该网络能够方便、快速的进行多尺度特征融合。