1.问题来源 公司线上环境出现MQ不能接受消息的异常,运维和开发人员临时切换另一台服务器的MQ后恢复。同时运维人员反馈在出现问题的服务器上很多基本的命令都不能运行,出现如下错误: 2. 初步原因分析和解决 让运维的兄弟在服务上查看内存、CPU、网络、IO等基本信息都正常。于是自己到运维的服务器上看了一下,下面是slabtop –s c的运行结果,问题初步原因貌似出现了: 如果看到这个截图你看不出什么异常的话,下面的内容你可能不感兴趣,哈哈。。。 task_struct是内核对进程的管理单位,通过slub(slab的升级版,如果你对slub不了解