深度学习常见概念解释(二)—— 感受野:定义与计算公式
前言
笔者在学习深度网络的过程中,发现感受野(Receptive Field)这个概念经常出现,且该概念在深度网络特征提取层的设计中至关重要,但其作用不易通过名字直接理解。因此,本文收集了相关信息,对感受野进行定义和解释,并通过公式和实例帮助读者更好地理解这一概念。
感受野的定义
感受野(Receptive Field)是神经网络中一个基本且重要的概念,尤其是在卷积神经网络(CNNs)中。它表示输入空间中一个像素影响输出空间中特定神经元的区域大小。具体解释为:在卷积神经网络中,感受野是指在输入图像上,一个神经元(或特征图中的一个元素)可以看到或响应的区域大小。更具体地说,感受野是指输入图像的一个区域,这个区域中的像素会影响到卷积层或池化层中特定位置的输出值。
感受野的重要性
- 特征提取能力:感受野越大,神经元可以看到的输入区域就越大,能够捕捉到更多的全局特征。
- 卷积层设计:了解感受野的大小有助于设计合适的卷积层、池化层和步幅,以确保网络能够有效地捕捉到输入图像的关键信息。
- 网络深度与宽度:感受野的大小与网络的深度和每层的卷积核大小相关,影响网络的整体结构设计。
感受野的计算
计算公式
一般情况下,对于任意层的感受野大小,可以使用以下公式递归计算:
R
n
=
R
n
−
1
+
(
k
n
−
1
)
⋅
s
n
−
1
R_n = R_{n-1} + (k_n – 1) \cdot s_{n-1}
Rn=Rn−1+(kn−1)⋅sn−1
其中:
R
n
R_n
R
n
−
1
R_{n-1}
k
n
k_n
s
n
−
1
s_{n-1}
通过公式可知:感受野的计算取决于卷积层和池化层的排列方式、卷积核大小、步幅和填充方式。以下是一个简单的例子来说明如何计算感受野。
示例
假设一个简单的卷积神经网络有三层卷积,每层的卷积核大小为
3
×
3
3 imes 3
3×3,步幅为1,填充为1(即保持输出尺寸不变)。
第一层卷积:
- 输入尺寸:
32
×
32
32 imes 32
- 卷积核大小:
3
×
3
3 imes 3
- 填充:1
- 输出尺寸:
32
×
32
32 imes 32
感受野大小:
3
×
3
3 imes 3
3×3
- 输入尺寸:
第二层卷积:
- 输入尺寸:
32
×
32
32 imes 32
- 卷积核大小:
3
×
3
3 imes 3
- 填充:1
- 输出尺寸:
32
×
32
32 imes 32
感受野大小:
3
+
(
3
−
1
)
=
5
×
5
3 + (3 – 1) = 5 imes 5
3+(3−1)=5×5
- 输入尺寸:
第三层卷积:
- 输入尺寸:
32
×
32
32 imes 32
- 卷积核大小:
3
×
3
3 imes 3
- 填充:1
- 输出尺寸:
32
×
32
32 imes 32
感受野大小:
5
+
(
3
−
1
)
=
7
×
7
5 + (3 – 1) = 7 imes 7
5+(3−1)=7×7
- 输入尺寸:
总的来说,通过每层卷积核的计算,最终第三层的感受野为
7
×
7
7 imes 7
7×7,即输入图像中一个
7
×
7
7 imes 7
7×7 的区域会影响到第三层特征图中的一个神经元的输出。
通过这种递归计算方式,可以逐层计算网络中每个神经元的感受野,帮助设计和理解卷积神经网络的结构和特征提取能力。
总结
感受野是卷积神经网络中衡量每个神经元能够“看到”的输入图像区域的一个重要概念。理解和计算感受野有助于设计更有效的神经网络结构,提高特征提取的能力和模型的整体性能。