推荐星级:
- 1
- 2
- 3
- 4
- 5
FPDeep:FPGA集群上CNN培训的加速和负载均衡
资料介绍
基于FPGA的CNN加速器在灵活性和功率效率方面具有优势,因此正在由许多云计算服务提供商部署,包括微软,亚马逊,腾讯和阿里巴巴。然而,鉴于神经网络的复杂性日益增加,将CNN有效映射到多FPGA平台变得越来越具有挑战性。在这项工作中,我们提出了一个可扩展的框架FPDeep,它可以帮助工程师将特定的CNN训练逻辑映射到多FPGA集群或云,并为目标网络构建RTL实现。借助FPDeep,多FPGA加速器可以使用简单的1-D拓扑以深度流水线方式工作;这使得ccelerators能够直接映射到许多现有平台,包括Catapult,Catapult2和几乎任何紧密耦合的FPGA集群。 FPDeep使用两种机制来促进高性能和高能效。首先,FPDeep提供了一种平衡FPGA间工作负载的策略,从而提高了利用率。其次,CNN的训练以细粒度的层间和层内流水线方式执行,最小化了在等待反向传播时功能需要保持可用的时间。这将存储需求减少到卷积层仅需要片上存储器的情况。实验表明,FPDeep具有良好的可扩展性,适用于大量FPGA,其限制因素是FPGA到FPGA的带宽。 FPDeep每个FPGA使用六个收发器,可显示多达60个FPGA的线性度。我们评估GOPs / J的能效,发现FPDeep的能效比特斯拉K80 GPU提高了3.4倍。
部分文件列表
文件名 | 大小 |
FCCM18a.pdf | 1006K |
全部评论(0)