本文共 1237 字,大约阅读时间需要 4 分钟。
本文对P、R、O网络结构进行解读,详细分析网络的工作流程及其实现步骤,并探讨其中的难点。
本研究基于P、R、O网络框架,旨在实现面部关键点检测。网络由三个部分组成:P网络、R网络和O网络,分别负责初步检测、精确检测和优化检测。
P网络、R网络和O网络通过多级特征学习,逐步提升人脸检测的精度。以下是网络的主要组成部分:
代码实现分为以下几个阶段:
样本预处理
数据集采用celeba,生成三种尺寸(12×12、24×24、48×48),每种尺寸包含正样本、负样本及部分中性样本。P网络实现
测试流程
P网络测试:
R网络测试:
O网络测试:
本实现的难点在于对多个方法的理解与应用,尤其是以下几个方面:
图像金字塔:
图像金字塔仅在推理阶段使用,训练时不需要多尺度样本。P网络可看作一个12×12的大卷积核,以stride=2的步长在全图上做滑窗操作。iou(交叠度):
计算两个框的交叠程度,值越高表示交叠越大。nms(非极大值抑制):
根据iou值将重叠度较低的框排除。convert_to_square:
将P网络输出的框定结果补充为正方形。边框回归(box_reg):
根据偏移量和缩放因子,计算框定框的最终坐标。原图
输入图像可能包含多个人脸区域。P网络输出:
得到多个候选框定框,部分框可能局部化。R网络输出:
精确筛选出高置信度的框定框。O网络输出:
对最终框定框进行优化,提升检测精度。本研究基于P、R、O网络框架,计划依次研究YOLO系列(v1、v2、v3),探讨其优缺点与应用场景。
转载地址:http://trpi.baihongyu.com/