在本文中,我们将演示一种方法,该方法可以提高使用NVIDIA CUDA 8.0 Runtime API实现常规分发计数算法(DCA)的代码的性能(最多600%)