您的位置：首页 >聚焦 >

YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署（就要这么学！！！）

2022-03-18 05:43:58 来源：程序员客栈

近年来，CNN在人脸检测方面已经得到广泛的应用。但是许多人脸检测器都是需要使用特别设计的人脸检测器来进行人脸的检测，而YOLOv5的作者则是把人脸检测作为一个一般的目标检测任务来看待的。
YOLOv5Face在YOLOv5的基础上添加了一个 5-Point Landmark Regression Head（关键点回归），并对Landmark Regression Head使用了Wing loss进行约束。YOLOv5Face设计了不同模型尺寸的检测器，从大模型到超小模型，以实现在嵌入式或移动设备上的实时检测。
在WiderFace数据集上的实验结果表明，YOLOv5Face在几乎所有的Easy、Medium和Hard子集上都能达到最先进的性能，超过了特定设计的人脸检测器。
Github地址：https://www.github.com/deepcam-cn/yolov5-face

1为什么人脸检测 = 一般检测？

在YOLOv5Face的方法中是把人脸检测作为一个一般的目标检测任务。与TinaFace想法类似把人脸作为一个目标。正如在TinaFace中所讨论的：

从数据的角度来看，人脸所具有的诸如姿态、尺度、遮挡、光照以及模糊等也会出现在其他的一般检测任务之中；从面部的独特属来看性，如表情和化妆，也可以对应一般检测问题中的形状变化和颜色变化。

Landmark相对来说是一个特殊的存在，但他们也并不是唯一的。它们只是一个物体的关键点。例如，在车牌检测中，也使用了Landmark。在目标预测模型的Head中添加Landmark回归相对来说是一键简单的事情。那么从人脸检测所面临的挑战来看，多尺度、小人脸、密集场景等在一般的目标检测中都存在。因此，人脸检测完全可以看作一个一般目标检测子任务。

2YOLOv5Face的设计目标和主要贡献2.1 设计目标

YOLOv5Face针对人脸检测的对YOLOv5进行了再设计和修改，考虑到大人脸、小人脸、Landmark监督等不同的复杂性和应用。YOLOv5Face的目标是为不同的应用程序提供一个模型组合，从非常复杂的应用程序到非常简单的应用程序，以在嵌入式或移动设备上获得性能和速度的最佳权衡。

2.2 主要贡献

重新设计了YOLOV5来作为一个人脸检测器，并称之为YOLOv5Face。对网络进行了关键的修改，以提高平均平均精度(mAP)和速度方面的性能；

设计了一系列不同规模的模型，从大型模型到中型模型，再到超小模型，以满足不同应用中的需要。除了在YOLOv5中使用的Backbone外，还实现了一个基于ShuffleNetV2的Backbone，它为移动设备提供了最先进的性能和快速的速度；

在WiderFace数据集上评估了YOLOv5Face模型。在VGA分辨率的图像上，几乎所有的模型都达到了SOTA性能和速度。这也证明了前面的结论，不需要重新设计一个人脸检测器，因为YOLO5就可以完成它。

3YOLOv5Face是如何诞生的？3.1 模型架构

YOLOv5Face是以YOLOv5作为Baseline来进行改进和再设计以适应人脸检测。这里主要是检测小脸和大脸的修改。

图1 架构图

YOLO5人脸检测器的网络架构如图1所示。它由Backbone、Neck和Head组成，描述了整体的网络体系结构。在YOLOv5中，使用了CSPNet Backbone。在Neck中使用了SPP和PAN来融合这些特征。在Head中也都使用了回归和分类。

图1(b)

在图1(b)中，定义了一个CBS Block，它由Conv、BN和SiLU激活函数组成。CBS Block也被用于许多其他Block之中。

classConv(nn.Module):#Standardconvolutiondef__init__(self,c1,c2,k=1,s=1,p=None,g=1,act=True):#ch_in,ch_out,kernel,stride,padding,groupssuper(Conv,self).__init__()#卷积层self.conv=nn.Conv2d(c1,c2,k,s,autopad(k,p),groups=g,bias=False)#BN层self.bn=nn.BatchNorm2d(c2)#SiLU激活层self.act=nn.SiLU()ifactisTrueelse(actifisinstance(act,nn.Module)elsenn.Identity())defforward(self,x):returnself.act(self.bn(self.conv(x)))

图1(c)

在图1(c)中，显示了Head的输出标签，其中包括边界框(bbox)、置信度(conf)、分类(cls)和5-Point Landmarks。这些Landmarks是对YOLOv5的改进点，使其成为一个具有Landmarks输出的人脸检测器。如果没有Landmarks，最后一个向量的长度应该是6而不是16。

请注意，P3中的输出尺寸80×80×16，P4中的40×40×16，P5中的20×20×16，可选P6中的10×10×16为每个Anchor。实际的尺寸应该乘以Anchor的数量。

图1(d)

在图1(d)为stem结构，它用于取代YOLOv5中原来的Focus层。在YOLOv5中引入Stem块用于人脸检测是YOLOv5Face的创新之一。

classStemBlock(nn.Module):def__init__(self,c1,c2,k=3,s=2,p=None,g=1,act=True):super(StemBlock,self).__init__()#3×3卷积self.stem_1=Conv(c1,c2,k,s,p,g,act)#1×1卷积self.stem_2a=Conv(c2,c2//2,1,1,0)#3×3卷积self.stem_2b=Conv(c2//2,c2,3,2,1)#最大池化层self.stem_2p=nn.MaxPool2d(kernel_size=2,stride=2,ceil_mode=True)#1×1卷积self.stem_3=Conv(c2*2,c2,1,1,0)defforward(self,x):stem_1_out=self.stem_1(x)stem_2a_out=self.stem_2a(stem_1_out)stem_2b_out=self.stem_2b(stem_2a_out)stem_2p_out=self.stem_2p(stem_1_out)out=self.stem_3(torch.cat((stem_2b_out,stem_2p_out),1))returnout

用Stem模块替代网络中原有的Focus模块，提高了网络的泛化能力，降低了计算复杂度，同时性能也没有下降。Stem模块的图示中虽然都是用的CBS，但是看代码可以看出来第2个和第4个CBS是1×1卷积，第1个和第3个CBS是3×3，stride=2的卷积。配合yaml文件可以看到stem以后图像大小由640×640变成了160×160。

图1(e)

在图1(e)中，显示了一个CSP Block(C3)。CSP Block的设计灵感来自于DenseNet。但是，不是在一些CNN层之后添加完整的输入和输出，输入被分成 2 部分。其中一半通过一个CBS Block，即一些Bottleneck Blocks，另一半是经过Conv层进行计算：

classC3(nn.Module):#CSPBottleneckwith3convolutionsdef__init__(self,c1,c2,n=1,shortcut=True,g=1,e=0.5):#ch_in,ch_out,number,shortcut,groups,expansionsuper(C3,self).__init__()c_=int(c2*e)#hiddenchannelsself.cv1=Conv(c1,c_,1,1)self.cv2=Conv(c1,c_,1,1)self.cv3=Conv(2*c_,c2,1)#act=FReLU(c2)self.m=nn.Sequential(*[Bottleneck(c_,c_,shortcut,g,e=1.0)for_inrange(n)])defforward(self,x):returnself.cv3(torch.cat((self.m(self.cv1(x)),self.cv2(x)),dim=1))

图1(f)

如图1(f)所示，则是C3模块中的Bottleneck层。

classBottleneck(nn.Module):#Standardbottleneckdef__init__(self,c1,c2,shortcut=True,g=1,e=0.5):#ch_in,ch_out,shortcut,groups,expansionsuper(Bottleneck,self).__init__()c_=int(c2*e)#hiddenchannels#第1个CBS模块self.cv1=Conv(c1,c_,1,1)#第2个CBS模块self.cv2=Conv(c_,c2,3,1,g=g)#元素add操作self.add=shortcutandc1==c2defforward(self,x):returnx+self.cv2(self.cv1(x))ifself.addelseself.cv2(self.cv1(x))

图1(g)

图1(g)是SPP Block。YOLOv5Face在这个Block中把YOLOv5中的13×13,9×9,5×5的kernel size被修改为7×7,5×5,3×3，这个改进更适用于人脸检测并提高了人脸检测的精度。

classSPP(nn.Module):#这里主要是讲YOLOv5中的kernel=(5,7,13)修改为(3,5,7)def__init__(self,c1,c2,k=(3,5,7)):super(SPP,self).__init__()c_=c1//2#hiddenchannels#对应第1个CBSBlockself.conv1=Conv(c1,c_,1,1)#对应第2个cat后的CBSBlockself.conv2=Conv(c_*(len(k)+1),c2,1,1)#ModuleList=[3×3MaxPool2d,5×5MaxPool2d,7×7MaxPool2d]self.m=nn.ModuleList([nn.MaxPool2d(kernel_size=x,stride=1,padding=x//2)forxink])defforward(self,x):x=self.conv1(x)returnself.conv2(torch.cat([x]+[m(x)forminself.m],1))

同时，YOLOv5Face添加一个stride=64的P6输出块，P6可以提高对大人脸的检测性能。（之前的人脸检测模型大多关注提高小人脸的检测性能，这里作者关注了大人脸的检测效果，提高大人脸的检测性能来提升模型整体的检测性能）。P6的特征图大小为10x10。

注意，这里只考虑VGA分辨率的输入图像。为了更精确地说，输入图像的较长的边缘被缩放到640，并且较短的边缘被相应地缩放。较短的边缘也被调整为SPP块最大步幅的倍数。例如，当不使用P6时，较短的边需要是32的倍数；当使用P6时，较短的边需要是64的倍数。

3.2 输入端改进

YOLOv5Face作者发现一些目标检测的数据增广方法并不适合用在人脸检测中，包括上下翻转和Mosaic数据增广。删除上下翻转可以提高模型性能。对小人脸进行Mosaic数据增广反而会降低模型性能，但是对中尺度和大尺度人脸进行Mosaic可以提高性能。随机裁剪有助于提高性能。

这里主要还是COCO数据集和WiderFace数据集尺度有差异，WiderFace数据集小尺度数据相对较多。

3.3 Landmark回归

Landmark是人脸的重要特征。它们可以用于人脸比对、人脸识别、面部表情分析、年龄分析等任务。传统Landmark由68个点组成。它们被简化为5点时，这5点Landmark就被广泛应用于面部识别。人脸标识的质量直接影响人脸对齐和人脸识别的质量。

一般的物体检测器不包括Landmark。可以直接将其添加为回归Head。因此，作者将它添加到YOLO5Face中。Landmark输出将用于对齐人脸图像，然后将其发送到人脸识别网络。

用于Landmark回归的一般损失函数为L2、L1或smooth-L1。MTCNN使用的就是L2损失函数。然而，作者发现这些损失函数对小的误差并不敏感。为了克服这个问题，提出了Wing loss:

w:正数w将非线性部分的范围限制在[−w,w]区间内；

:约束非线性区域的曲率，并且是一个常数，可与平滑的来连接分段的线性和非线性部分。的取值是一个很小的数值，因为它会使网络训练变得不稳定，并且会因为很小的误差导致梯度爆炸问题。

实际上，的Wing loss函数的非线性部分只是简单地采用ln(x)在[/w,1 +/w ]之间的曲线，并沿X轴和Y轴将其缩放比例为w。另外，沿Y轴应用平移以使wing(0)=0,并在损失函数上施加连续性。

Landmark点向量与其ground truth 的损失函数为：

其中。

设YOLOv5中通用的目标检测损失函数为,则新的总损失函数为:

其中为Landmark回归损失函数的权重因子。

landmark的获取：

#landmarkslks=t[:,6:14]lks_mask=torch.where(lks<0,torch.full_like(lks,0.),torch.full_like(lks,1.0))#应该是关键点的坐标除以anch的宽高才对，便于模型学习。使用gwh会导致不同关键点的编码不同，没有统一的参考标准lks[:,[0,1]]=(lks[:,[0,1]]-gij)lks[:,[2,3]]=(lks[:,[2,3]]-gij)lks[:,[4,5]]=(lks[:,[4,5]]-gij)lks[:,[6,7]]=(lks[:,[6,7]]-gij)

Wing Loss的计算如下:

classWingLoss(nn.Module):def__init__(self,w=10,e=2):super(WingLoss,self).__init__()#https://arxiv.org/pdf/1711.06753v4.pdfFigure5self.w=wself.e=eself.C=self.w-self.w*np.log(1+self.w/self.e)defforward(self,x,t,sigma=1):#这里的x，t分别对应之后的pret，truelweight=torch.ones_like(t)#返回一个大小为1的张量，大小与t相同weight[torch.where(t==-1)]=0diff=weight*(x-t)abs_diff=diff.abs()flag=(abs_diff.data
分析比较L1，L2和Smooth L1损失函数其中s是人脸关键点的ground-truth,函数f(x)就等价于：
损失函数对x的导数分别为:
L2损失函数，当x增大时L2 loss对x的导数也增大，这就导致训练初期，预测值与ground-truth差异过大时，损失函数对预测值的梯度十分大，导致训练不稳定。
L1 loss的导数为常数，在训练后期，预测值与ground-truth差异很小时， 损失对预测值的导数的绝对值仍然为1，此时学习率(learning rate)如果不变，损失函数将在稳定值附近波动，难以继续收敛达到更高精度。
smooth L1损失函数，在x较小时，对x的梯度也会变小，而在x很大时，对x的梯度的绝对值达到上限 1，也不会太大以至于破坏网络参数。smooth L1完美地避开了L1和L2损失的缺陷。
此外，根据fast rcnn的说法，"… L1 loss that is less sensitive to outliers than the L2 loss used in R-CNN and SPPnet." 也就是smooth L1让loss对于离群点更加鲁棒，即相比于L2损失函数，其对离群点、异常值（outlier）不敏感，梯度变化相对更小，训练时不容易跑飞。
上图描绘了这些损失函数的曲线图。需要注意的是，Smoolth L1损失是Huber损失的一种特殊情况，L2损失函数在人脸关键点检测中被广泛应用，然而，L2损失对异常值很敏感。
为什么是Wing Loss？上一部分中分析的所有损失函数在出现较大误差时表现良好。这说明神经网络的训练应更多地关注具有小或中误差的样本。为了实现此目标，提出了一种新的损失函数，即基于CNN的面部Landmark定位的Wing Loss。
当NME在0.04的时候，测试数据比例已经接近1了，所以在0.04到0.05这一段，也就是所谓的large errros段，并没有分布更多的数据，说明各损失函数在large errors段都表现很好。
模型表现不一致的地方就在于small errors和medium errors段，例如，在NME为0.02的地方画一根竖线，相差甚远的。因此作者提出训练过程中应该更多关注samll or medium range errros样本。
可以使用ln x来增强小误差的影响，它的梯度是,对于接近0的值就会越大,optimal step size为，这样gradient就由small errors“主导”，step size由large errors“主导”。这样可以恢复不同大小误差之间的平衡。
但是，为了防止在可能的错误方向上进行较大的更新步骤，重要的是不要过度补偿较小的定位错误的影响。这可以通过选择具有正偏移量的对数函数来实现。
但是这种类型的损失函数适用于处理相对较小的定位误差。在wild人脸关键点检测中，可能会处理极端姿势，这些姿势最初的定位误差可能非常大，在这种情况下，损失函数应促进从这些大错误中快速恢复。这表明损失函数的行为应更像L1或L2。由于L2对异常值敏感，因此选择了L1。
所以，对于小误差，它应该表现为具有偏移量的对数函数，而对于大误差，则应表现为L1。因此复合损失函数Wing Loss就诞生了。
3.4 YOLOv5Face的后处理NMS其实本质上没有改变，这里仅仅给出对比的代码。
yolov5的NMS代码如下：
defnon_max_suppression(prediction,conf_thres=0.25,iou_thres=0.45,classes=None,agnostic=False,labels=()):"""PerformsNon-MaximumSuppression(NMS)oninferenceresultsReturns:detectionswithshape:nx6(x1,y1,x2,y2,conf,cls)"""nc=prediction.shape[2]-5#numberofclasses
yolov5face的NMS代码如下：
defnon_max_suppression_face(prediction,conf_thres=0.25,iou_thres=0.45,classes=None,agnostic=False,labels=()):"""PerformsNon-MaximumSuppression(NMS)oninferenceresultsReturns:detectionswithshape:nx6(x1,y1,x2,y2,conf,cls)"""#不同之处nc=prediction.shape[2]-15#numberofclasses
4开启训练4.1 下载源码
gitclonehttps://github.com/deepcam-cn/yolov5-face
4.2 下载widerface数据集下载网址：
https://drive.google.com/file/d/1tU_IjyOwGQfGNUvZGwWWM4SwxKp2PUQ8/view?usp=sharing
下载后，解压缩位置放到yolov5-face-master项目里data文件夹下的widerface文件夹下。
4.3 运行train2yolo.py和val2yolo.py把数据集转成yolo训练用的格式。完成后文件夹显示如下：
4.4 运行train.py过程显示如下：
5OpenCV-C++部署5.1 参数配置该部分主要是输入输出尺寸、Anchor以及Strides设置等
constfloatanchors[3][6]={{4,5,8,10,13,16},{23,29,43,55,73,105},{146,217,231,300,335,433}};constfloatstride[3]={8.0,16.0,32.0};constintinpWidth=640;constintinpHeight=640;floatconfThreshold;floatnmsThreshold;floatobjThreshold;
5.2 模型加载以及Sigmoid的定义该部分主要设ONNX模型的加载。
YOLO::YOLO(Net_configconfig){cout<<"Netuse"<confThreshold=config.confThreshold;this->nmsThreshold=config.nmsThreshold;this->objThreshold=config.objThreshold;strcpy_s(this->netname,config.netname.c_str());stringmodelFile=this->netname;modelFile+="-face.onnx";this->net=readNet(modelFile);}voidYOLO::sigmoid(Mat*out,intlength){float*pdata=(float*)(out->data);inti=0;for(i=0;i
5.3 后处理部分这里对于坐标的处理和YOLOV5保持一致，但是由于多出来Landmark，所以也多出了这一部分的处理：
if(box_score>this->objThreshold){//该部分与yolov5的保持一致floatface_score=sigmoid_x(pdata[15]);floatcx=(sigmoid_x(pdata[0])*2.f-0.5f+j)*this->stride[n];///cxfloatcy=(sigmoid_x(pdata[1])*2.f-0.5f+i)*this->stride[n];///cyfloatw=powf(sigmoid_x(pdata[2])*2.f,2.f)*anchor_w;///wfloath=powf(sigmoid_x(pdata[3])*2.f,2.f)*anchor_h;///hintleft=(cx-0.5*w)*ratiow;inttop=(cy-0.5*h)*ratioh;confidences.push_back(face_score);boxes.push_back(Rect(left,top,(int)(w*ratiow),(int)(h*ratioh)));//landmark的处理vectorlandmark(10);for(k=5;k<15;k+=2){constintind=k-5;landmark[ind]=(int)(pdata[k]*anchor_w+j*this->stride[n])*ratiow;landmark[ind+1]=(int)(pdata[k+1]*anchor_h+i*this->stride[n])*ratioh;}landmarks.push_back(landmark);//}}
6参考[1].https://github.com/hpc203/yolov5-face-landmarks-opencv-v2[2].https://github.com/deepcam-cn/yolov5-face[3].YOLO5Face: Why Reinventing a Face Detector[4].https://zhuanlan.zhihu.com/p/375966269
7推荐阅读YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有
改进YOLO | 可能这才是用Transformer正确打开YOLO的方式吧？
YOLOV5 v6.1更新 | TensorRT+TPU+OpenVINO+TFJS+TFLite等平台一键导出和部署
小目标Trick | Detectron2、MMDetection、YOLOv5都通用的小目标检测解决方案
长按扫描下方二维码添加小助手并加入交流群，群里博士大佬云集，每日讨论话题有目标检测、语义分割、超分辨率、模型部署、数学基础知识、算法面试题分享的等等内容，当然也少不了搬砖人的扯犊子长按扫描下方二维码添加小助手。
可以一起讨论遇到的问题
声明：转载请说明出处扫描下方二维码关注【集智书童】公众号，获取更多实践项目源码和论文解读，非常期待你我的相遇，让我们以梦为马，砥砺前行！
 
关键词：         
       损失函数 
              
       目标检测 
              
       作为一个