推荐星级:
- 1
- 2
- 3
- 4
- 5
传输触发架构的可编程神经网络处理器设计
资料介绍
卷积神经网络算法存在着算法结构多样和数据交换计算量大的问题.为此,提出了一种基于传输触发体系架构的可编程卷积神经网络处理器.系统采用多通道直接存储器访问通道、多端口存储器和专用池化数据通道组成数据传输网络解决了数据交换问题.实验表明,该系统在实现卷积神经网络的加速计算方面,虽然吞吐速率比并行流水线方案慢11%,但与之相比具备可编程、适应不同神经网络的特性,节省了46.5%硬件乘法器资源,比其他非流水线实现方案吞吐速率至少快40%.该方案具有系统并行度大、可编程、可在线配置和处理速度较高的特点.
部分文件列表
文件名 | 大小 |
传输触发架构的可编程神经网络处理器设计.pdf | 2M |
部分页面预览
(完整内容请下载后查看)(
西安电子科技大学学报 自然科学版
)
年
月
2018
8
Au .2018
g
ꢀ
ꢀ
第
卷
第
期
4
45
Vol.45 No.4
ꢀ
ꢀ
JOURNAL OF XIDIAN UNIVERSITY
ꢀ ꢀ ꢀ
:
doi10ꢀ3969/ꢀissnꢀ10012400ꢀ2018ꢀ04ꢀ017
-
j
传输触发架构的可编程神经网络处理器设计
,
,
,
,
蓉 徐 欣 冉
赵 博 然
张
犁
石 光 明
黄
ꢀ
ꢀ
( ,
西安电子科技大学 电子工程学院 陕西 西安
)
710071
: ,
摘要 卷积神经网络算法存在着算法结构多样和数据交换计算量大的问题 为此 提出了一种基于传输触
.
、
发体系架构的可编程卷积神经网络处理器 系统采用多通道直接存储器访问通道 多端口存储器和专用池
.
,
化数据通道组成数据传输网络解决了数据交换问题 实验表明 该系统在实现卷积神经网络的加速计算方
.
,
面 虽然吞吐速率比并行流水线方案慢
, 、 ,
但与之相比具备可编程 适应不同神经网络的特性 节省了
11%
,
硬件乘法器资源 比其他非流水线实现方案吞吐速率至少快
、
该方案具有系统并行度大 可编
40%.
46.5%
、
程 可在线配置和处理速度较高的特点
.
: ; ; ;
关键词 深度学习 卷积神经网络 并行处理 现场可编程门阵列
:
:
A
:
文章编号
10012400201804009207
ꢀꢀ
(
)
中图分类号
文献标识码
TP332
ꢀꢀ
-
-
-
Desinofthe rorammableneuralnetwork rocessor
ꢀ ꢀ ꢀ ꢀ
p
ꢀ
ꢀ
g
p g
basedonthetransorttri eredarchitecture
ꢀ ꢀ ꢀ ꢀ ꢀ
gg
p
, ,
ZHAOBoran ZHANGLi SHIGuan min
ꢀ
,
g
,
HUANGRon XU Xinran
ꢀ ꢀ
g
ꢀ
ꢀ
g
,
,
,
SchoolofElectronicEnineerin XidianUnivꢀ Xian710071 China
ꢀ ꢀ ꢀ g
(
)
g
ꢀ
ꢀ
:
Abstract Theconvolutionalneuralnetworkshavethe roblemsofstructurediversit andlareamountsof
ꢀp ꢀ ꢀ ꢀ gꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
y
ꢀ
ꢀ
dataexchaneandcom utationꢀA transorttri eredarchitecturebasedconvolutionalneuralnetwork
gꢀ gg
ꢀ ꢀ ꢀ ꢀ ꢀ
ꢀ
ꢀ
p
p
ꢀ
ꢀ
rocessoris resentedinthis aerꢀThedatatransortnetworkisconstructedwith multichanneldirect
ꢀ ꢀp ꢀ ꢀ ꢀpp ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ -
p
ꢀ
p
ꢀ
,
,
memor accesschannels themulti ortmemor andthesecialized oolin data ath whichsolvesthe
ꢀp ꢀp ꢀp
y
ꢀ
ꢀ
ꢀ
-
p
ꢀ
y
ꢀ
ꢀ
g
ꢀ
ꢀ
ꢀ
,
inefficientdataexchane roblemꢀExerimentalresultsshowthat althouhthe roosedarchitectureis
gꢀp gꢀ ꢀp p
ꢀ
ꢀ
p
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
,
11% slowerthanthestreamlinestructure itcanadattoavariet ofconvolutionalneuralnetworksand
pꢀ ꢀꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
y
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
save 46.5% multiliersꢀ Com ared with the schemes resented in other aers excet ieline
ꢀ ꢀ ꢀ ꢀp ꢀ ꢀ ꢀpp
pꢀpp
ꢀ
p
p
ꢀ
,
,
im lementation ourdesinim rovesthedatathrouhutrateb 40% atleastꢀBesides thissstem has
gꢀ p gp ꢀ ꢀy
ꢀy
p
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
,
y
,
,
rorammableflexibilit online architecture reconfiuration hih
p g g
advantaesof arallelefficienc
g ꢀ ꢀp
ꢀ
ꢀ
y
ꢀ
ꢀ
g
,
rocessin seed etcꢀ
g p
p
ꢀ
:
Ke Words
ꢀ
;
;
;
dee learnin convolutionalneuralnetworks arallelcom utin field rorammable
g
ꢀp g
p
ꢀ
g
ꢀ
ꢀ
p
ꢀ
p
y
ꢀ
atearra
ꢀ
g y
(
,
)
是最近几年兴起的图像和视频处理技术 它以较
ConvolutionalNeuralNetwork CNN
,
卷积神经网络
ꢀ
ꢀ
、
高的准确率迅速在图像识别 图像分类和图像检测中获得应用 典型的
.
、
和
LeNet5 AlexNet
算法有
CNN
-
[]
1
: , ,
应用多样化 使得算法结构多样化 这导致针对单一算法的流水线并
等
这类算法有两个特点
.
VGGNet
[
]
23
-
, , ;
难以满足结构多样化的需求 因此 处理器必须具备可编程或可配置特性 算法需要的数
行加速方案
[]
4
, ,
据通信开销大 而且卷积神经网络存在着大量算法层的数据复用 导致普通的矩阵展开加速方案 消耗了大
, , ,
量的数据通信时间 从而难以提高速度 因此 必须针对算法特点提高数据复用率 针对上述问题 目前已提
.
.
:
:
20171228
-
收稿日期
网络出版时间
20171011
- -
ꢀꢀꢀꢀ
-
:
作者简介 赵博然
(
1991-
),
, ,
西安电子科技大学硕士研究生
E mail zhaoboran2016 mail.com.
@g
:
男
-
:
张
(
1968-
),
,
,
:
E mail zhan1li2 mail.xidian.edu.cn.
g @
通信作者
犁
男
高级工程师
ꢀ
-
: ://
htt
p
/
/ /
kns.cnki.netkcmsdetail61 .1076 .T N .20171228 .0918 .006 .html
网络出版地址
://
http www.xdxb.net
:
赵博然等 传输触发架构的可编程神经网络处理器设计
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
第
期
4
93
[
414
-
]
[
]
1516
-
(
,
)
虽然
CentralProcessin UnitCPU
出了很多加速方法
和一些通用加速方案方法
通用中央处理器
.
ꢀ
g
ꢀ
, , ;
编程灵活 但能效比低 而且处理速度低 专用集成电路
(
,
)
具备
A licationSecificInteratedCircuitASIC
pp
ꢀp
ꢀ
g
ꢀ
, ;
速度和 功 耗 优 势 但 是 灵 活 性 差 专 用 指 令 集 处 理 器
(
,
A licationSecificInstructionsetProcessor
pp
ꢀp
ꢀ
ꢀ ꢀ
[ ]
17
)
ASIP
,
的可编程特性和专用集成电路处理速度快的优点 因而逐渐成为一种流行的嵌
兼顾了通用
CPU
(
,
y
)
具有电路资源丰富和可
FieldProrammableGateArra FPGA
入式图像处理方式 而现场可编程门阵列
.
ꢀ
g
ꢀ
ꢀ
,
重构的特点 是一种较理想的
:
开发卷积神经网络处理器的关键点是 设计可编
实现方式 使用
.
ASIP
ASIP
,
程的体系结构和高效的数据传输网络 使其针对不同类型和规模的卷积神经网络都具有较高的处理速度 笔
.
; ,
者首先介绍典型卷积神经网络的结构特点和处理器体系架构 然后 介绍处理器总体电路结构和单个处理单
(
,
Processin ElementPE
g
)
(
的电路结构 文中使用传输触发体系架构
.
,
TransortTri eredArchitecture
ꢀ gg
元
p
ꢀ
ꢀ
[ ]
18
)
TTA
(
, )
DirectMemor Access DMA
ꢀ
y
ꢀ
、
结合片内多通道直接存储器访问
通道 多端口存储器和专用池化
、 ; ,
数据通路实现了电路可编程 高效数据复用及快速数据交换与运算的目标 最后 给出了处理器加速性能的
,
实验结果 验证了可编程卷积神经网络处理器的高速性和灵活性
.
卷积神经网络算法和处理器体系架构
1
ꢀ
典型的
网络
1.1
CNN
ꢀ
:
一个典型的卷积神经网络结构包含 卷积层
(
)、
下采样层
(
)
和全连接
Poolin Laer
y
ConvolutionalLaer
ꢀ y
ꢀꢀ
g
ꢀ
(
)
Full connectedLaer .1998
ꢀ y
,
年 文献
[]
针对手写体数字识别提出了
1
,
、
包括了 个卷积层 个
2
层
LeNet5
-
2
y
-
、 , ,
下采样层 个全连接层 所有卷积层的卷积核尺寸为 卷积层的输出特征图数量为
5
,
年 在大
16.2012
和
2
6
(
,
)
比 赛 中 提 出 了
ImaenetLareScaleVisualReconitionChalleneILSVRC
gꢀ
规模视觉图像 识 别 挑 战 赛
g
ꢀ
ꢀ
ꢀ
g
ꢀ
g
[]
2
,
、 ,
包括 个卷积层 个下采样层和 个全连接层 卷积核尺寸有
3
、
,
卷积层的输出特征图
和
AlexNet
5
3
35 11
,
的网络结构 如图 所示
、
和
48128 192.2014
,
年 文献
[]
在
3
数量有
比赛中提出的一种
ILSVRC VGGNet
.
1
、
、
, ,
层 卷积核尺寸为 卷积层的
3
网络包含了 个卷积层 个下采样层 个全连接层和
13
个
VGG16
输出特征图数量有
5
3
1
softmax
、
、
,
:
由此可以总结出 典型的卷积神经网络具有以下特点
64128256 512.
和
网络进行的
各层包含大量的
网络结构多种多样 不同网络对应的卷积核尺寸 特征图数量和图像尺寸不同
、
、
,
;
基本运算包含乘累加 非线性运算 池化运算等基本操作 并且各层重复进行上述运算
;
,
、
数据交换操作
.
图
网络结构图
VGG16
1
ꢀ
处理器体系架构
1.2
ꢀ
, :
由以上分析可知 卷积神经网络需要的硬件架构应具有以下特点 处理单元可大规模并行并且可被各层
; ,
重复使用 在处理器的控制下进行大量数据交换与运算 数据交换方式可根据程序指令灵活选择
.
,
TTA
(
Ver Lon
y
设计处理器 架 构 必 须 根 据 数 据 流 和 网 络 结 构 特 点 进 行 选 择
是 从 超 长 指 令 字
g
ꢀ
[ ]
19
,
Instruction Word VLIW
ꢀ
)
(
)
为核心数据
ReisterFile
体系结构发展而来的
体系架构以寄存器堆
.VLIW
g
ꢀ
,
交换单元 而
,
体系架构将所有功能单元通过数据传输网络对等连接 系统通过一条
指令将数据
TTA
Move
,
送往相关运算单元 并触发对应操作实现其功能
体系架构比
VLIW
架构更适合数据传输与计算密集
.TTA
型的应用 并且通过改变指令参数可以实现使用同一套数据传输网络完成多种数据传输方式 由此可见
体系架构特点与卷积神经网络的需求高度吻合
,
,
,
TTA
.
://
http www.xdxb.net
全部评论(0)