YOLOv5s网络架构由输入端、主干网、特征融合和输出端四个部分组成。在输入端进行图像预处理,包括Mosaic数据增强、自动锚框计算和自适应图像缩放。主干网通过Focus操作对图像进行切片处理,每隔一个像素采样一个值,以减少信息损失。跨阶段局部(CSP)模块用于在主干网络中进行局部通道融合,以获取更丰富的特征图。特征融合阶段通过上采样层和CSP模块将高层语义信息与低层位置信息融合,生成预测特征图并输入输出端。输出端包含三种不同尺寸的特征图,根据各特征生成预测框并进行非极大值抑制,保留置信度较高的预测框。