GPU编程之进击的优化 李修宇.docx
第一章 设备微架构 1.0 CUDA设备 1.0.0 核心微架构 1.0.1 指令编码格式 1.0.2 寄存器文件结构 1.0.3 指令流水线 1.0.4 Pascal架构(待续) 1.1 GCN设备 1.1.0 核心微架构 1.1.1 指令编码格式 1.1.2 寄存器文件结构 1.1.3 指令流水线 1.2 GPU设备上的条件分支 第二章 GPU矩阵乘法的高效实现 2.0 前言 2.1 指令级并行和数据预取 2.2 双缓冲区 2.3 宽数据内存事务 2.4 二级数据预取 2.5 细节调优 第三章 基于GPU的大规模稀疏矩阵直接求解器 3.0 简介 3.1 基于quotient graph的符号分析 3.1.1 顶点重排序 3.1.2 构建消去树 3.1.3 寻找超结点 3.1.4 符号分解 3.2 多波前法 3.3 超节点方法 3.4 多波前+超节点方法的并行分解算法 小结 参考资料 第四章 CNN中的卷积计算 前言 1 基于矩阵乘法的卷积算法 2 类矩阵乘法的卷积算法 小结 第五章 基于GPU的LU分解(待续) 5.0 一般实现 5.1 分块实现 5.2 使用动态并行 5.3 多GPU版本 第六章 GPU上的光线追踪(待续) 6.1 kd-tree算法介绍及内核实现 6.2 less-分支版本的kd-tree算法及内核实现 6.3 ropes-kdtree算法及内核实现 第七章 LBM流体计算(待续) 尾章 GPU编程优化技术总结 4.1.0 CUDA设备上的优化技术 4.1.1 访存优化 4.1.2 指令优化 4.1.3 内核调用优化 4.2.0 GCN设备上的优化技术 4.2.1 访存优化 4.2.2 指令优化 4.2.3 内核调用优化 4.3 构建性能可移植的程序