上文我们介绍了目标检测和目标定位的基础知识,本文我们就正式开始介绍YOLO算法。YOLO全称是You Only Look Once,这个算法来源于Joseph Redmon等人在CVPR 2015上发表的一篇论文:You Only Look Once: Unified, Real-Time Object Detection,它不仅解决了目标边界框不精确的问题,而且算法速度也很快,下面让我们看看它是如何实现的。
基本思路
YOLO的基本思路是,把一个大的图像分割成更小更精细的n等份的网格,然后每个网格都打上标签,这个格子内是否有目标,目标的位置以及目标所属类别。为了简单起见,我们以\(3 \times 3\)的网格为例,实际使用中的表格会更精细,比如\(19 \times 19\),它们的示意图如下:
这样一来输出层的大小就是\(3 \times 3 \times 8\)或者\(19 \times 19 \times 8\)。值得注意的是,YOLO算法是一个卷积实现,所以它的速度非常快,基本可以做到实时检测。还有一个小细节是,在计算每个格子中目标的位置时,我们不再以整张图标作为参考[……]