在CUDA环境下编写的矩阵乘法程序,能够在GPU上运行,并得到加速。