今天我们开始介绍Coursera-Deep Learning第四课卷积神经网络的week3的内容:目标检测,主要内容是YOLO算法。在详细介绍这个算法之前我们先普及一些目标检测的基本知识。
目标定位(Localization)
所谓的检测(Detection)指的是从一张图片中识别出是否存在某个目标,而目标定位(Localization)指的是在识别目标的同时,输出它在图像中的位置。我们知道使用神经网络进行目标检测是很容易的,那么如何进行目标定位呢?很简单,跟目标检测一样,我们不仅可以对图像内容打标签,还可以对它所在的位置打标签,然后通过神经网络训练,定位目标。所以,一个完整的Object Detection应该包括Detection和Localization两部分,结合起来后我们得到以下的label \(y\):
$$
y=\begin{bmatrix}
p_c\\
b_x\\
b_y\\
b_h\\
b_w\\
c_1\\
c_2\\
c_3
\end{bmatrix}
$$
其中,
- \(p_c\)表示的是否有目标,0没有;1有
- \(b_x\)和\(b_y\)表示该目[……]