一、FPN网络简介
FPN(Feature Pyramid Network)网络是一种融合不同尺度feature map并保持信息丰富度的卷积神经网络模型。它是2017年由罗迪尼奥(Lin, Tsung-Yi)等人在IEEE CVPR上提出的。FPN网络有助于解决单尺度特征学习出现的物体尺度变化导致检测准确率下降的问题。
特征金字塔网络(PPN)和SSD单尺度网络前两篇都介绍过,这里重点介绍FPN网络。FPN网络是金字塔形的,由bottom-up和top-down两个过程组成。在bottom-up过程中,各级别的feature map通过降采样融合得到尺度变小、语义层次更高的feature map;在top-down过程中,这些feature map通过上采样得到尺度变大、语义层次更低的feature map。融合后的金字塔结构可以有效地提高网络的检测精度。
二、FPN网络结构
整个FPN网络由两个主要部分组成:底部的处理模块和顶部的预测模块。
1.底部的处理模块
底部的处理模块由特征提取和特征融合两部分组成。特征提取采用ResNet网络、VGG网络等尺度不同的主干网络。在特征提取完之后,不同层级的feature map会被送入top-down和bottom-up两个模块进行融合处理。
下面是底部的处理模块的代码:
<tf.function>
def bottom_up_module(inputs):
c3_output, c4_output, c5_output = inputs
p5_output = Conv2D(256, kernel_size=(1, 1), name='fpn_c5p5')(c5_output)
p4_output = Add(name='fpn_p4add')([
UpSampling2D(size=(2, 2), name='fpn_p5upsampled')(p5_output),
Conv2D(256, kernel_size=(1, 1), name='fpn_c4p4')(c4_output)])
p3_output = Add(name='fpn_p3add')([
UpSampling2D(size=(2, 2), name='fpn_p4upsampled')(p4_output),
Conv2D(256, kernel_size=(1, 1), name='fpn_c3p3')(c3_output)])
return [p3_output, p4_output, p5_output]
2.顶部的预测模块
顶部的预测模块由多个分支组成,每个分支在进行对象检测和分割任务时负责不同尺度下的特征提取与预测。每个分支包含一个分类分支,一个回归分支和一个mask分支。分类分支负责对每个anchor进行分类,回归分支负责精调检测框位置,mask分支负责行人segmantic segmentation任务。各个分支在融合时使用fpn算法融合各个尺度的特征图,融合后得到一个特征图,通过各个分支的输出进行预测结果。
下面是顶部的预测模块的代码:
<tf.function>
def top_down_module(inputs):
feature_maps, fpn_channels = inputs
num_level = len(feature_maps)
for i in range(num_level - 1, 0, -1):
prev_feature_maps = feature_maps[i - 1]
prev_channels = fpn_channels[i - 1]
cur_channels = fpn_channels[i]
top_down = UpsampleLike(name='fpn_p%dupsampled' % i)(
feature_maps[i])
lateral = Conv2D(cur_channels, kernel_size=(1, 1), strides=(1, 1),
padding='valid', name='fpn_p%dlateral' % i)(
feature_maps[i - 1])
merged_data = Add(name='fpn_p%dadd' % i)([top_down, lateral])
feature_maps[i - 1] = Conv2D(prev_channels, kernel_size=(3, 3), padding='same',
name='fpn_p%d' % i)(merged_data)
return feature_maps
三、FPN网络的优点
FPN网络的结构有效地解决了特征金字塔网络中信息丢失和运算量大的问题,具有以下优点:
1.避免了各级别特征的信息丢失:在同等计算量下,FPN网络对目标的多尺度特征感知能力明显高于其他单尺度网络,在小目标检测中表现尤为突出。
2.减少了计算量:与金字塔网络和SSD单尺度网络相比,FPN网络具有更少的参数和计算量。
四、FPN网络的应用
1.目标检测:FPN网络的多尺度特征可以更好地识别各种尺度的目标,因此广泛应用于目标检测场景中。
2.行人检测:在行人检测任务中,FPN网络通常使用在Faster R-CNN算法中,可以极大地提高算法的准确性。
3.遥感图像识别:FPN网络在遥感图像识别中也有其独特的应用,可以提升遥感图像检测精度。
五、FPN网络的代码示例
下面是一个基于TensorFlow2实现的简单FPN网络代码示例:
<tf.function>
def create_fpn_model():
inputs = Input(shape=(None, None, 3))
c3_output, c4_output, c5_output = resnet.get_resnet50_model(inputs)
outputs = fpn.bottom_up_module([c3_output, c4_output, c5_output])
outputs = fpn.top_down_module([outputs, [256, 256, 256]])
model = tf.keras.Model(inputs, outputs, name='fpn')
return model
在上面的代码中,我们使用ResNet50网络实现底部的特征提取,然后通过FPN算法进行特征融合。
六、总结
FPN网络的创新性地应用了金字塔形的特征融合结构,从底层到高层处理了尺度不同的特征,使得网络具有更好的感知能力和识别能力。此外,FPN网络还可以作为基础模型应用在目标检测等领域,推动人工智能技术的发展。