图形处理器(GPU ) 的处理速度在最近几年得 到了快速的发展, 其计算能力以每年2. 8 倍的速度 增长, 高于CPU 的发展速度. 如目前GTX280 GPU 的峰值浮点运算能力已经超过1T F lop s, 而因特尔4 核CPU Clow lown 的单精度浮点最高运算能力为 84G F lop s. 出现该现象的主要原因在于CPU 的微 构架要兼顾数值运算指令和控制指令, 而GPU 的微 构架是面向图形类高度并行计算而设计的, 因此, GPU 在并行数值处理能力上要远高于CPU. 为了合 理地利用GPU 通用计算的资源, 统一计算设备架构 (CUDA ) 应运而生[1 ]. CUDA