背景 在使用scrapy爬取东西的时候,使用crontab定时的启动爬虫,但是发现机器上经常产生很多卡死的scrapy进程,一段时间不管的话,会导致有10几个进程都卡死在那,并且会导致数据产出延迟。 问题定位 使用py-spy这个非常好用的python性能分析工具来进行排查,py-spy可以查看一个python进程函数调用用时,类似unix下的top命令。所以我们用这个工具看看是什么函数一直在执行。 首先安装这个工具 pip install py-spy 用py-spy看看scrapy哪个函数执行时间长 # 先找到这个卡死的scrapy进程的pid ps -ef |grep scrapy