
GPU高性能計算培訓
GPU離性能計算一
OpenACC編程基礎
與優化進階
1. OpenACC基礎:概念、與CUDA區別、編譯器、生態;共享存儲結
2.0penACC開發環境搭建配置
3.0penACC四步開發流程:判斷并行性、并行化表達、顯式數據傳遂、優化
?判斷并行性:Profile工具pgprof
?并行化表達:引導關鍵字Kernerls和Parallel Loop
?顯式管理數據的拷貝:引導關鍵字Data
?優化:統一內存管理、線程并行層級、collapse、tile
OpenACC上機實操
? Hellow world ?矢量點乘
GPU高性能計S—
CUDA編程基礎
與優化進階
1. CUDA基礎:API、數據并行、線程模型、存儲播型、控制、同步、并發和通信、加
速比
2. CUDA幵發環境搭建和工具配置
3. CUDA優化進階:線程組織調度、分支語句、訪存優化、數據傳輸、原子操作
4. GPU并行計算模式及案例分析
分析調試:parallel nsight、visual profiler、cuda-gdb
5. CUDA生態系統和相關專業領域軟件介紹
GPU高性能計算一
深度學習
1.深度學習GPU解決方案:
? 基于GPU的交互式深度學習訓練平臺:DIGITS
? 深度學習框架的GPU加速:TensorFlow、Caffe等
? NVIDIA深度學習 SDK:cuDNN, TensorRT, NCCL, CUDA-X
? 深度學習顯卡選擇