課程目錄:CUDA培訓
4401 人關注
(78637/99817)
課程大綱:

    CUDA培訓

 

 

 

CUDA入門
1. CUDA 簡介
2. CUDA kernel函數,warp,線程組織
3. 系統架構
4. 內存映射
5. CUDA三步式編程結構
在CUDA-GDB中理解CUDA
1. CUDA-GDB 基本用法
2. 觀察GPU寄存器
3. 觀察錯誤信息
4. 從GPU上打印信息
5. 試驗:編譯和調試向量乘法程序
使用NSight調試CUDA程序
1. NSight簡介,安裝和設置環境信息
2. 在CUDA info窗口觀察計算狀態
3. 試驗:編譯和調試矩陣向量乘法程序
4. 試驗:使用Nsight調試CUDA程序
使用CUDA profiler 優化CUDA程序
1. 測量GPU時間,nvprof,命令行選項
2. 分析熱點,采樣視圖
3. 內存優化,共享內存
4. 試驗:使用nvprof優化CUDA程序
GPU深度學習的應用
深度學習GPU解決方案:
基于GPU的交互式深度學習訓練平臺:DIGITS;
深度學習框架的GPU加速:TensorFlow,Caffe等;
NVIDIA深度學習SDK:cuDNN,TensorRT,NCCL;
深度學習顯卡選擇;
OpenACC并行編程
OpenACC上機實戰:Helloworld
OpenACC四步開發流程:判斷并行性,并行化表達,顯式數據傳遞,優化
判斷并行性:Profile工具pgprof
并行化表達:引導關鍵字Kernerls和Parallel Loop
顯式管理數據的拷貝:引導關鍵字Data
OpenCL并行編程
OpenCL:編程模型,存儲模型
生態(覆蓋intel,amd,nvidia,移動端arm)
CUDA vs OpenCL
OpenCL向哪里走
AMD ROCM HC/HIP編程
AMD并行編程
AMD生態
hipify轉換
HC/HIP編程
HIP vs OpenCL

主站蜘蛛池模板: 一本久久综合亚洲鲁鲁五月天亚洲欧美一区二区| 欧美综合图区亚洲综合图区| 亚洲欧美日韩综合在线播放| 久久综合给合综合久久| 亚洲中文字幕无码久久综合网| 色拍自拍亚洲综合图区| 在线综合亚洲欧美网站| 色综合久久中文字幕无码| 中文字幕亚洲综合久久菠萝蜜| 欧美日韩一区二区综合在线| 日韩亚洲国产综合高清| 综合久久国产九一剧情麻豆| 国产福利电影一区二区三区久久久久成人精品综合| 久久综合狠狠综合久久| 国产成+人+综合+亚洲专| 欧美日韩综合一区在线观看| 狠狠人妻久久久久久综合蜜桃| 伊人色综合久久天天人手人婷| 色综合久久无码五十路人妻| 久久综合综合久久狠狠狠97色88| 色婷婷综合久久久久中文| 亚洲精品欧美综合在线| 7国产欧美日韩综合天堂中文久久久久| 99久久亚洲综合精品网站| 久久综合久久综合亚洲| 一本色综合网久久| 婷婷久久香蕉五月综合加勒比| 国产婷婷色综合AV蜜臀AV| 色天使久久综合网天天| 热综合一本伊人久久精品| 久久综合色之久久综合| 亚洲综合色在线观看亚洲| 久久综合九色综合网站| 伊人色综合久久天天人守人婷| 色综合伊人色综合网站| 丁香五月综合久久激情| 国产色婷婷精品综合在线| 久久婷婷综合中文字幕| 亚洲综合婷婷久久| 伊人色综合一区二区三区| 精品第一国产综合精品蜜芽|