为了更好地满足对宁夏全区荒漠草原植物种类及其分布的调查需求,我们深入研究了植物识别方法。在解决YOLO v5s模型在复杂背景下植物识别问题的过程中,我们推出了一种新颖的轻量化模型,即YOLO v5s-CBD。我们对模型进行了改进,通过引入带有Transformer模块的主干网络BoTNet,将卷积和自注意力相融合,以提高模型在复杂背景下的感知能力。此外,我们在特征提取网络中引入了坐标注意力(Coordinate attention,CA),以增强模型对通道和位置关系的识别能力。为了解决预测框与真实框不匹配的问题,我们采用了SIoU函数计算回归损失,并通过深度可分离卷积(Depthwise separable convolution,DSC)减小了模型的体积。实验结果显示,YOLO v5s-CBD在单块Nvidia GTX A5000 GPU上达到了140帧/s的帧率,模型体积为8.9MB。精确率P为95.1%,召回率R为92.9%,综合评价指标F1为94.0%,平均精度均值mAP为95.7%,在VOC数据集上的平均精度均值为80.09%。