推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

深度学习卷积神经网络vliw加速器设计与实现

更新时间:2020-01-13 13:15:21 大小:6M 上传用户:sun2152查看TA发布的资源 浏览次数:108 下载积分:1分 出售积分赚钱 评价赚积分 ( 如何评价?) 标签:卷积神经网络vliw加速器 收藏 评论(0) 举报

资料介绍

近年来,卷积神经网络(CNN)算法及其在视觉感知领域的应用很大程度上改变了传统的机器视觉框架。但因为CNN算法大量的计算工作负载使其很难在高实时性,嵌入式场合得以广泛应用。最近,有一些国际著名的学术、商业机构推出了其专用的解决方案,用来降低功耗并提高性能,但大量的数据传输与访问仍然是一个棘手的挑战.

本文的主要的工作如下:

1.整合并优化了CNN卷积层,进行了细粒度的算法并行性分析,提出了Intra Output Feature Map的并行思路;对片上片外存储模型进行分析并为CNN设置了较通用的存储解决方案;

2.提出了一种全新的CNN硬件加速器结构,设定了指令集与工作模式,用户可以使用简单的VLIW指令实现多种参数的CNN网络层;

3.构建了基于ZYNQ的SOC芯片设计验证平台框架,并对CNN加速器进行验证;

4.使用28nm低功耗工艺库实现了CNN加速器ASIC,与其它先进的CNN加速器相比,在实现相近或更好的吞吐量情况下,本文的加速器降低了50%的外部存储访问量,能够在0.303mm2的芯片面积上达到102GOp/s@800MHz的吞吐量,最大功耗仅为68mW.

关键词:卷积神经网络并行计算硬件加速芯片低功耗深度学习

最近几年内,Al(人工智能)技术展现了其在多领域方面的独特优势,比如大数据处理,智能医疗,安防,ADASIS](先进辅助驾驶系统)等。在发达国家,人工智能已经成为了优先发展目标。其中,最为突出的是最近在Deep Learning(深度学习)领域的进展,由百度,谷歌,微软,Facebook此类的高端互联网公司研究实践表明了深度学习能够在图像感知方面达到甚至超过人类的水平。

在深度学习网络的实现中,一个最主要的挑战在于大量的运算会消耗过多的能源与硬件资源。因此,深度学习专用SoC片上系统的研究将会成为未来顶级科技公司与学术界研究的热点。比如说,在未来大数据处理集群中,一台装有深度学习专用处理器加速卡的服务器能够完成50-100台普通服务器的负载工作量。因此,深度神经网络专用硬件加速器将是未来人工智能的关键。


部分文件列表

文件名 大小
深度学习卷积神经网络vliw加速器设计与实现.pdf 6M

推荐下载

全部评论(0)

暂无评论