编程宝库 - 技术改变世界

编程宝库

Search

Python编程技术

pandas进阶教程之Dataframe的apply方法

Python四大模块文件管理介绍

yolov5模型配置yaml文件详细讲解

yolov5的代码模型构建是通过.yaml文件实现的，初次看上去会一头雾水，这里记录一下，也方便自己后面用到的时候查看。

以models/yolov5s.yaml为例

文件内容如下：

# Parameters
nc: 5  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple

anchors:
- [24,24,29,84,59,42]  # P3/8
- [45,146,75,87,157,49]  # P4/16
- [310,167,139,341,127,151]  # P5/32

# YOLOv5 backbone
backbone:
# [from, number, module, args]
[[-1, 1, Focus, [64, 3]],  # 0-P1/2
 [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
 [-1, 3, C3, [128]],
 [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
 [-1, 9, C3, [256]],
 [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
 [-1, 9, C3, [512]],
 [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
 [-1, 1, SPP, [1024, [5, 9, 13]]],
 [-1, 3, C3, [1024, False]],  # 9
]

# YOLOv5 head
head:
[[-1, 1, Conv, [512, 1, 1]],
 [-1, 1, nn.Upsample, [None, 2, 'nearest']],
 [[-1, 6], 1, Concat, [1]],  # cat backbone P4
 [-1, 3, C3, [512, False]],  # 13

 [-1, 1, Conv, [256, 1, 1]],
 [-1, 1, nn.Upsample, [None, 2, 'nearest']],
 [[-1, 4], 1, Concat, [1]],  # cat backbone P3
 [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

 [-1, 1, Conv, [256, 3, 2]],
 [[-1, 14], 1, Concat, [1]],  # cat head P4
 [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

 [-1, 1, Conv, [512, 3, 2]],
 [[-1, 10], 1, Concat, [1]],  # cat head P5
 [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

 [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
]

我们一个一个来解释：

一些基本参数：
- nc 数据集中物体的类别数
- depth_multiple 控制网络深度的系数
- width_multiple 控制网络宽度的系数
- anchors 给不同尺度特征图分配的anchors，可以看到包含三个列表，表示给三个尺度分配，这三个尺度在[[17, 20, 23], 1, Detect, [nc, anchors]] 指明，分别是网络的第17、20和23层。注释P3/8是指输入下采样了23 = 8倍，我们也可以发现网络的第17层特征图为输入的1/8。
BackBone：
骨干网络的定义，是一个列表，每一行表示一层。可以看到每一行是有4个元素的列表，[from, number, module, args]说明了这个4个元素的意思。
- from 表示该层的输入从哪来。-1表示输入取自上一层，-2表示上两层，3表示第3层（从0开始数），[-1, 4]表示取自上一层和第4层，依次类推。。。网络层数的数法在注释里已经标出来了，从0开始，每一行表示一层，例如0-P1/2表示第0层，特征图尺寸为输入的1/21。
- number 表示该层模块堆叠的次数，对于C3、BottleneckCSP等模块，表示其子模块的堆叠，具体细节可以查看源代码。当然最终的次数还要乘上depth_multiple系数。
- module 表示该层的模块是啥。Conv就是卷积+BN+激活模块。所有的模块在 model/common.py 中都有定义。
- args 表示输入到模块的参数。例如Conv：[128, 3, 2] 表示输出通道128，卷积核尺寸3，strid=2，当然最终的输出通道数还要乘上 width_multiple，对于其他模块，第一个参数值一般都是指输出通道数，具体细节可以看 model/common.py 中的定义。
Head
规则和BackBone一毛一样，这里再解释一些最后一层：
[[17, 20, 23], 1, Detect, [nc, anchors]] 表示把第17、20和23三层作为Detect模块的输入， [nc, anchors]是初始化Detect模块的参数。Detect模块在model/yolo.py中声明，相当于从模型中提出想要的层作为输入，转换为相应的检测头，其输出用来计算loss。