高效的矩阵向量乘法程序,用两中方法实现,其中第二种比第一种方法大约快了一倍,但都比CPU快多了。测试尺寸2000x4000