推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

FPDeep:FPGA集群上CNN培训的加速和负载均衡

更新时间:2018-12-20 10:15:27 大小:1006K 上传用户:z00查看TA发布的资源 标签:fpdeepfpgacnn负载均衡 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

基于FPGA的CNN加速器在灵活性和功率效率方面具有优势,因此正在由许多云计算服务提供商部署,包括微软,亚马逊,腾讯和阿里巴巴。然而,鉴于神经网络的复杂性日益增加,将CNN有效映射到多FPGA平台变得越来越具有挑战性。在这项工作中,我们提出了一个可扩展的框架FPDeep,它可以帮助工程师将特定的CNN训练逻辑映射到多FPGA集群或云,并为目标网络构建RTL实现。借助FPDeep,多FPGA加速器可以使用简单的1-D拓扑以深度流水线方式工作;这使得ccelerators能够直接映射到许多现有平台,包括Catapult,Catapult2和几乎任何紧密耦合的FPGA集群。 FPDeep使用两种机制来促进高性能和高能效。首先,FPDeep提供了一种平衡FPGA间工作负载的策略,从而提高了利用率。其次,CNN的训练以细粒度的层间和层内流水线方式执行,最小化了在等待反向传播时功能需要保持可用的时间。这将存储需求减少到卷积层仅需要片上存储器的情况。实验表明,FPDeep具有良好的可扩展性,适用于大量FPGA,其限制因素是FPGA到FPGA的带宽。 FPDeep每个FPGA使用六个收发器,可显示多达60个FPGA的线性度。我们评估GOPs / J的能效,发现FPDeep的能效比特斯拉K80 GPU提高了3.4倍。

部分文件列表

文件名 大小
FCCM18a.pdf 1006K

【关注B站账户领20积分】

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单
  • sd-hyc 打赏1.00元   2天前

    资料:神州易刻2024最新版

  • 柏涵 打赏1.00元   3天前

    资料:XDS100_v1_1_RTM

  • 21ic下载 打赏310.00元   3天前

    用户:jh0355

  • 21ic下载 打赏310.00元   3天前

    用户:w178191520

  • 21ic下载 打赏210.00元   3天前

    用户:gsy幸运

  • 21ic下载 打赏210.00元   3天前

    用户:zhengdai

  • 21ic下载 打赏210.00元   3天前

    用户:jh03551

  • 21ic下载 打赏110.00元   3天前

    用户:liqiang9090

  • 21ic下载 打赏60.00元   3天前

    用户:sun2152

  • 21ic下载 打赏60.00元   3天前

    用户:xuzhen1

  • 21ic下载 打赏80.00元   3天前

    用户:xzxbybd

  • 21ic下载 打赏25.00元   3天前

    用户:WK520077778

  • 21ic下载 打赏20.00元   3天前

    用户:w1966891335

  • 21ic下载 打赏20.00元   3天前

    用户:铁蛋锅

  • 21ic下载 打赏20.00元   3天前

    用户:玉落彼岸

  • 21ic下载 打赏15.00元   3天前

    用户:kk1957135547

  • 21ic下载 打赏10.00元   3天前

    用户:zpf22332

  • 21ic下载 打赏5.00元   3天前

    用户:pangpidan

  • 21ic下载 打赏5.00元   3天前

    用户:hpxny

  • 21ic下载 打赏5.00元   3天前

    用户:pandq2009

  • 21ic下载 打赏5.00元   3天前

    用户:tomp

推荐下载