本文工作基于faster RCNN , 区别在于 1.改进了rpn,anchor产生的window的宽度固定为3。 2.rpn后面不是直接接全连接+分类/回归,而是再通过一个LSTM,再接全连接层。 3.坐标仅仅回归一个y,而不是x1, y1, x2, y2 4.添加 side-refinement offsets(可能这个就是4个回归值中的其中2个)