推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

FPDeep:FPGA集群上CNN培训的加速和负载均衡

更新时间:2018-12-20 10:15:27 大小:1006K 上传用户:z00查看TA发布的资源 标签:fpdeepfpgacnn负载均衡 下载积分:2分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

基于FPGA的CNN加速器在灵活性和功率效率方面具有优势,因此正在由许多云计算服务提供商部署,包括微软,亚马逊,腾讯和阿里巴巴。然而,鉴于神经网络的复杂性日益增加,将CNN有效映射到多FPGA平台变得越来越具有挑战性。在这项工作中,我们提出了一个可扩展的框架FPDeep,它可以帮助工程师将特定的CNN训练逻辑映射到多FPGA集群或云,并为目标网络构建RTL实现。借助FPDeep,多FPGA加速器可以使用简单的1-D拓扑以深度流水线方式工作;这使得ccelerators能够直接映射到许多现有平台,包括Catapult,Catapult2和几乎任何紧密耦合的FPGA集群。 FPDeep使用两种机制来促进高性能和高能效。首先,FPDeep提供了一种平衡FPGA间工作负载的策略,从而提高了利用率。其次,CNN的训练以细粒度的层间和层内流水线方式执行,最小化了在等待反向传播时功能需要保持可用的时间。这将存储需求减少到卷积层仅需要片上存储器的情况。实验表明,FPDeep具有良好的可扩展性,适用于大量FPGA,其限制因素是FPGA到FPGA的带宽。 FPDeep每个FPGA使用六个收发器,可显示多达60个FPGA的线性度。我们评估GOPs / J的能效,发现FPDeep的能效比特斯拉K80 GPU提高了3.4倍。

部分文件列表

文件名 大小
FCCM18a.pdf 1006K

全部评论(0)

暂无评论