推荐星级:
- 1
- 2
- 3
- 4
- 5
嵌入式GPU和CPU的深度学习网络部署
资料介绍
CUDA编程对GPU的挑战
学习CUDA编程
– 需要重新编写程序于GPU并行编程的运算架构
创建CUDA kernels
– 需要分析算法来创建最大化并行处理的CUDA kernel
分配内存
– 需要处理CPU和GPU memory space的内存分配
尽量减少CPU和GPU的数据传输
– 需要尽量减少,同时确保在算法的适当部分完成所需的数据传输
生成代码的性能
图像处理和计算机视觉性能
AlexNet 在Titan XP上的深度学习推理性能
VGG-16 在Titan XP上的深度学习推理性能
AlexNet 在Jetson (Tegra) TX2 上的深度学习推理性能
部分文件列表
文件名 | 大小 |
deploying-deep-learning-networks-to-embedded-gpus-and-cpus.pdf | 3M |
全部评论(0)