事故背景:一大早还在路上,群里陆续有人反馈系统一直报错 “ Unknown error 258 ”,后来查询日志发现错误日志 第一反应是不是数据库连接不够用了?导致超时?但是通过sql查询当时连接也只有40个左右,于是继续排查问题,发现dbserver机器这段时间磁盘io操作特别的高,很不正常,详见下图 发现磁盘io问题,继续查看sqlserver日志,发现原因: “Autogrow of file ‘xxxx_log’ in database ‘xxxx’ was cancelled by user or timed out after 3398 milliseconds. Use