推荐星级：

传输触发架构的可编程神经网络处理器设计

更新时间：2020-01-01 20:08:13 大小：2M 上传用户：songhuahua 查看TA发布的资源 标签：可编程神经网络 下载积分：1分评价赚积分（如何评价?）收藏评论(0) 举报

资料介绍

卷积神经网络算法存在着算法结构多样和数据交换计算量大的问题.为此,提出了一种基于传输触发体系架构的可编程卷积神经网络处理器.系统采用多通道直接存储器访问通道、多端口存储器和专用池化数据通道组成数据传输网络解决了数据交换问题.实验表明,该系统在实现卷积神经网络的加速计算方面,虽然吞吐速率比并行流水线方案慢11%,但与之相比具备可编程、适应不同神经网络的特性,节省了46.5%硬件乘法器资源,比其他非流水线实现方案吞吐速率至少快40%.该方案具有系统并行度大、可编程、可在线配置和处理速度较高的特点.

部分文件列表

文件名	大小
传输触发架构的可编程神经网络处理器设计.pdf	2M

立即下载

【关注视频号领20积分】【关注公众号立即送20积分】

部分页面预览

（完整内容请下载后查看）

（

西安电子科技大学学报自然科学版

）

年

月

２０１８

８

Ａｕ．２０１８

ｇ

ꢀ

第

卷

第

期

４

４５

Ｖｏｌ．４５Ｎｏ．４

ꢀ

ＪＯＵＲＮＡＬＯＦＸＩＤＩＡＮＵＮＩＶＥＲＳＩＴＹ

ꢀ ꢀ ꢀ

：

ｄｏｉ１０ꢀ３９６９／ꢀｉｓｓｎꢀ１００１２４００ꢀ２０１８ꢀ０４ꢀ０１７

－

ｊ

传输触发架构的可编程神经网络处理器设计

，

蓉徐欣冉

赵博然

张

犁

石光明

黄

ꢀ

（，

西安电子科技大学电子工程学院陕西西安

）

７１００７１

：，

摘要卷积神经网络算法存在着算法结构多样和数据交换计算量大的问题为此提出了一种基于传输触

．

、

发体系架构的可编程卷积神经网络处理器系统采用多通道直接存储器访问通道多端口存储器和专用池

．

，

化数据通道组成数据传输网络解决了数据交换问题实验表明该系统在实现卷积神经网络的加速计算方

．

，

面虽然吞吐速率比并行流水线方案慢

，、，

但与之相比具备可编程适应不同神经网络的特性节省了

１１％

，

硬件乘法器资源比其他非流水线实现方案吞吐速率至少快

、

该方案具有系统并行度大可编

４０％．

４６．５％

、

程可在线配置和处理速度较高的特点

．

：；；；

关键词深度学习卷积神经网络并行处理现场可编程门阵列

：

Ａ

：

文章编号

１００１２４００２０１８０４００９２０７

ꢀꢀ

（

）

中图分类号

文献标识码

ＴＰ３３２

ꢀꢀ

－

Ｄｅｓｉｎｏｆｔｈｅｒｏｒａｍｍａｂｌｅｎｅｕｒａｌｎｅｔｗｏｒｋｒｏｃｅｓｓｏｒ

ꢀ ꢀ ꢀ ꢀ

ｐ

ꢀ

ｇ

ｐｇ

ｂａｓｅｄｏｎｔｈｅｔｒａｎｓｏｒｔｔｒｉｅｒｅｄａｒｃｈｉｔｅｃｔｕｒｅ

ꢀ ꢀ ꢀ ꢀ ꢀ

ｇｇ

ｐ

，，

ＺＨＡＯＢｏｒａｎＺＨＡＮＧＬｉＳＨＩＧｕａｎｍｉｎ

ꢀ

，

ｇ

，

ＨＵＡＮＧＲｏｎＸＵＸｉｎｒａｎ

ꢀ ꢀ

ｇ

ꢀ

ｇ

，

ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃＥｎｉｎｅｅｒｉｎＸｉｄｉａｎＵｎｉｖꢀ Ｘｉａｎ７１００７１Ｃｈｉｎａ

ꢀ ꢀ ꢀ ｇ

（

）

ｇ

ꢀ

：

ＡｂｓｔｒａｃｔＴｈｅｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｈａｖｅｔｈｅｒｏｂｌｅｍｓｏｆｓｔｒｕｃｔｕｒｅｄｉｖｅｒｓｉｔａｎｄｌａｒｅａｍｏｕｎｔｓｏｆ

ꢀｐ ꢀ ꢀ ꢀ ｇꢀ

ꢀ

ｙ

ꢀ

ｄａｔａｅｘｃｈａｎｅａｎｄｃｏｍｕｔａｔｉｏｎꢀＡｔｒａｎｓｏｒｔｔｒｉｅｒｅｄａｒｃｈｉｔｅｃｔｕｒｅｂａｓｅｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ

ｇꢀ ｇｇ

ꢀ ꢀ ꢀ ꢀ ꢀ

ꢀ

ｐ

ꢀ

ｒｏｃｅｓｓｏｒｉｓｒｅｓｅｎｔｅｄｉｎｔｈｉｓａｅｒꢀＴｈｅｄａｔａｔｒａｎｓｏｒｔｎｅｔｗｏｒｋｉｓｃｏｎｓｔｒｕｃｔｅｄｗｉｔｈｍｕｌｔｉｃｈａｎｎｅｌｄｉｒｅｃｔ

ꢀ ꢀｐ ꢀ ꢀ ꢀｐｐ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ －

ｐ

ꢀ

ｐ

ꢀ

，

ｍｅｍｏｒａｃｃｅｓｓｃｈａｎｎｅｌｓｔｈｅｍｕｌｔｉｏｒｔｍｅｍｏｒａｎｄｔｈｅｓｅｃｉａｌｉｚｅｄｏｏｌｉｎｄａｔａａｔｈｗｈｉｃｈｓｏｌｖｅｓｔｈｅ

ꢀｐ ꢀｐ ꢀｐ

ｙ

ꢀ

－

ｐ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

，

ｉｎｅｆｆｉｃｉｅｎｔｄａｔａｅｘｃｈａｎｅｒｏｂｌｅｍꢀＥｘｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔａｌｔｈｏｕｈｔｈｅｒｏｏｓｅｄａｒｃｈｉｔｅｃｔｕｒｅｉｓ

ｇꢀｐｇꢀ ꢀｐｐ

ꢀ

ｐ

ꢀ

，

１１％ｓｌｏｗｅｒｔｈａｎｔｈｅｓｔｒｅａｍｌｉｎｅｓｔｒｕｃｔｕｒｅｉｔｃａｎａｄａｔｔｏａｖａｒｉｅｔｏｆｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄ

ｐꢀ ꢀꢀ

ꢀ

ｙ

ꢀ

ｓａｖｅ４６．５％ｍｕｌｔｉｌｉｅｒｓꢀ Ｃｏｍａｒｅｄｗｉｔｈｔｈｅｓｃｈｅｍｅｓｒｅｓｅｎｔｅｄｉｎｏｔｈｅｒａｅｒｓｅｘｃｅｔｉｅｌｉｎｅ

ꢀ ꢀ ꢀ ꢀｐ ꢀ ꢀ ꢀｐｐ

ｐꢀｐｐ

ꢀ

ｐ

ꢀ

，

ｉｍｌｅｍｅｎｔａｔｉｏｎｏｕｒｄｅｓｉｎｉｍｒｏｖｅｓｔｈｅｄａｔａｔｈｒｏｕｈｕｔｒａｔｅｂ４０％ａｔｌｅａｓｔꢀＢｅｓｉｄｅｓｔｈｉｓｓｓｔｅｍｈａｓ

ｇꢀ ｐｇｐ ꢀ ꢀｙ

ꢀｙ

ｐ

ꢀ

，

ｙ

，

ｒｏｒａｍｍａｂｌｅｆｌｅｘｉｂｉｌｉｔｏｎｌｉｎｅａｒｃｈｉｔｅｃｔｕｒｅｒｅｃｏｎｆｉｕｒａｔｉｏｎｈｉｈ

ｐｇｇ

ａｄｖａｎｔａｅｓｏｆａｒａｌｌｅｌｅｆｆｉｃｉｅｎｃ

ｇ ꢀ ꢀｐ

ꢀ

ｙ

ꢀ

ｇ

，

ｒｏｃｅｓｓｉｎｓｅｅｄｅｔｃꢀ

ｇｐ

ｐ

ꢀ

：

ＫｅＷｏｒｄｓ

ꢀ

；

ｄｅｅｌｅａｒｎｉｎｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓａｒａｌｌｅｌｃｏｍｕｔｉｎｆｉｅｌｄｒｏｒａｍｍａｂｌｅ

ｇ

ꢀｐｇ

ｐ

ꢀ

ｇ

ꢀ

ｐ

ꢀ

ｐ

ｙ

ꢀ

ａｔｅａｒｒａ

ꢀ

ｇｙ

（

，

）

是最近几年兴起的图像和视频处理技术它以较

ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋＣＮＮ

，

卷积神经网络

ꢀ

、

高的准确率迅速在图像识别图像分类和图像检测中获得应用典型的

．

、

和

ＬｅＮｅｔ５ＡｌｅｘＮｅｔ

算法有

ＣＮＮ

－

［］

１

：，，

应用多样化使得算法结构多样化这导致针对单一算法的流水线并

等

这类算法有两个特点

．

ＶＧＧＮｅｔ

［

］

２３

－

，，；

难以满足结构多样化的需求因此处理器必须具备可编程或可配置特性算法需要的数

行加速方案

［］

４

，，

据通信开销大而且卷积神经网络存在着大量算法层的数据复用导致普通的矩阵展开加速方案消耗了大

，，，

量的数据通信时间从而难以提高速度因此必须针对算法特点提高数据复用率针对上述问题目前已提

．

：

２０１７１２２８

－

收稿日期

网络出版时间

２０１７１０１１

－－

ꢀꢀꢀꢀ

－

：

作者简介赵博然

（

１９９１－

），

，，

西安电子科技大学硕士研究生

Ｅｍａｉｌｚｈａｏｂｏｒａｎ２０１６ｍａｉｌ．ｃｏｍ．

＠ｇ

：

男

－

：

张

（

１９６８－

），

，

：

Ｅｍａｉｌｚｈａｎ１ｌｉ２ｍａｉｌ．ｘｉｄｉａｎ．ｅｄｕ．ｃｎ．

ｇ ＠

通信作者

犁

男

高级工程师

ꢀ

－

：：／／

ｈｔｔ

ｐ

／

／／

ｋｎｓ．ｃｎｋｉ．ｎｅｔｋｃｍｓｄｅｔａｉｌ６１．１０７６．ＴＮ．２０１７１２２８．０９１８．００６．ｈｔｍｌ

网络出版地址

：／／

ｈｔｔｐｗｗｗ．ｘｄｘｂ．ｎｅｔ

：

赵博然等传输触发架构的可编程神经网络处理器设计

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ

第

期

４

９３

［

４１４

－

］

［

］

１５１６

－

（

，

）

虽然

ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎＵｎｉｔＣＰＵ

出了很多加速方法

和一些通用加速方案方法

通用中央处理器

．

ꢀ

ｇ

ꢀ

，，；

编程灵活但能效比低而且处理速度低专用集成电路

（

，

）

具备

ＡｌｉｃａｔｉｏｎＳｅｃｉｆｉｃＩｎｔｅｒａｔｅｄＣｉｒｃｕｉｔＡＳＩＣ

ｐｐ

ꢀｐ

ꢀ

ｇ

ꢀ

，；

速度和功耗优势但是灵活性差专用指令集处理器

（

，

ＡｌｉｃａｔｉｏｎＳｅｃｉｆｉｃＩｎｓｔｒｕｃｔｉｏｎｓｅｔＰｒｏｃｅｓｓｏｒ

ｐｐ

ꢀｐ

ꢀ

ꢀ ꢀ

［］

１７

）

ＡＳＩＰ

，

的可编程特性和专用集成电路处理速度快的优点因而逐渐成为一种流行的嵌

兼顾了通用

ＣＰＵ

（

，

ｙ

）

具有电路资源丰富和可

ＦｉｅｌｄＰｒｏｒａｍｍａｂｌｅＧａｔｅＡｒｒａＦＰＧＡ

入式图像处理方式而现场可编程门阵列

．

ꢀ

ｇ

ꢀ

，

重构的特点是一种较理想的

：

开发卷积神经网络处理器的关键点是设计可编

实现方式使用

．

ＡＳＩＰ

，

程的体系结构和高效的数据传输网络使其针对不同类型和规模的卷积神经网络都具有较高的处理速度笔

．

；，

者首先介绍典型卷积神经网络的结构特点和处理器体系架构然后介绍处理器总体电路结构和单个处理单

（

，

ＰｒｏｃｅｓｓｉｎＥｌｅｍｅｎｔＰＥ

ｇ

）

（

的电路结构文中使用传输触发体系架构

．

，

ＴｒａｎｓｏｒｔＴｒｉｅｒｅｄＡｒｃｈｉｔｅｃｔｕｒｅ

ꢀ ｇｇ

元

ｐ

ꢀ

［］

１８

）

ＴＴＡ

（

，）

ＤｉｒｅｃｔＭｅｍｏｒＡｃｃｅｓｓＤＭＡ

ꢀ

ｙ

ꢀ

、

结合片内多通道直接存储器访问

通道多端口存储器和专用池化

、；，

数据通路实现了电路可编程高效数据复用及快速数据交换与运算的目标最后给出了处理器加速性能的

，

实验结果验证了可编程卷积神经网络处理器的高速性和灵活性

．

卷积神经网络算法和处理器体系架构

１

ꢀ

典型的

网络

１．１

ＣＮＮ

ꢀ

：

一个典型的卷积神经网络结构包含卷积层

（

）、

下采样层

（

）

和全连接

ＰｏｏｌｉｎＬａｅｒ

ｙ

ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｅｒ

ꢀ ｙ

ꢀꢀ

ｇ

ꢀ

（

）

ＦｕｌｌｃｏｎｎｅｃｔｅｄＬａｅｒ．１９９８

ꢀ ｙ

，

年文献

［］

针对手写体数字识别提出了

１

，

、

包括了个卷积层个

２

层

ＬｅＮｅｔ５

－

２

ｙ

－

、，，

下采样层个全连接层所有卷积层的卷积核尺寸为卷积层的输出特征图数量为

５

，

年在大

１６．２０１２

和

２

６

（

，

）

比赛中提出了

ＩｍａｅｎｅｔＬａｒｅＳｃａｌｅＶｉｓｕａｌＲｅｃｏｎｉｔｉｏｎＣｈａｌｌｅｎｅＩＬＳＶＲＣ

ｇꢀ

规模视觉图像识别挑战赛

ｇ

ꢀ

ｇ

ꢀ

ｇ

［］

２

，

、，

包括个卷积层个下采样层和个全连接层卷积核尺寸有

３

、

，

卷积层的输出特征图

和

ＡｌｅｘＮｅｔ

５

３

３５１１

，

的网络结构如图所示

、

和

４８１２８１９２．２０１４

，

年文献

［］

在

３

数量有

比赛中提出的一种

ＩＬＳＶＲＣＶＧＧＮｅｔ

．

１

、

，，

层卷积核尺寸为卷积层的

３

网络包含了个卷积层个下采样层个全连接层和

１３

个

ＶＧＧ１６

输出特征图数量有

５

３

１

ｓｏｆｔｍａｘ

、

，

：

由此可以总结出典型的卷积神经网络具有以下特点

６４１２８２５６５１２．

和

网络进行的

各层包含大量的

网络结构多种多样不同网络对应的卷积核尺寸特征图数量和图像尺寸不同

、

，

；

基本运算包含乘累加非线性运算池化运算等基本操作并且各层重复进行上述运算

；

，

、

数据交换操作

．

图

网络结构图

ＶＧＧ１６

１

ꢀ

处理器体系架构

１．２

ꢀ

，：

由以上分析可知卷积神经网络需要的硬件架构应具有以下特点处理单元可大规模并行并且可被各层

；，

重复使用在处理器的控制下进行大量数据交换与运算数据交换方式可根据程序指令灵活选择

．

，

ＴＴＡ

（

ＶｅｒＬｏｎ

ｙ

设计处理器架构必须根据数据流和网络结构特点进行选择

是从超长指令字

ｇ

ꢀ

［］

１９

，

ＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄＶＬＩＷ

ꢀ

）

（

）

为核心数据

ＲｅｉｓｔｅｒＦｉｌｅ

体系结构发展而来的

体系架构以寄存器堆

．ＶＬＩＷ

ｇ

ꢀ

，

交换单元而

，

体系架构将所有功能单元通过数据传输网络对等连接系统通过一条

指令将数据

ＴＴＡ

Ｍｏｖｅ

，

送往相关运算单元并触发对应操作实现其功能

体系架构比

ＶＬＩＷ

架构更适合数据传输与计算密集

．ＴＴＡ

型的应用并且通过改变指令参数可以实现使用同一套数据传输网络完成多种数据传输方式由此可见

体系架构特点与卷积神经网络的需求高度吻合

，

ＴＴＡ

．

：／／

ｈｔｔｐｗｗｗ．ｘｄｘｂ．ｎｅｔ

全部评论(0)

暂无评论

评论赚积分>>

上传资源

传输触发架构的可编程神经网络处理器设计

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

推荐下载

专栏首页