推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于双向长短时记忆模型的中文分词方法

更新时间:2019-12-25 18:01:58 大小:1M 上传用户:zhiyao6查看TA发布的资源 标签:中文分词 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCity U)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.


部分文件列表

文件名 大小
基于双向长短时记忆模型的中文分词方法.pdf 1M

部分页面预览

(完整内容请下载后查看)
(
)
华 南 理 工 大 学 学 报 自 然 科 学 版  
Journal of South China University of Technology  
( Natural Science Edition)  
45  
3
Vol. 45 No. 3  
March 2017  
卷 第  
2017  
3
: 1000-565X( 2017) 03-0061-07  
文章编号  
*
基于双向长短记忆模型的中文分词方法  
张洪刚 焕  
(
北京电大学 信息通信工学院 北京  
100876)  
: ,  
中文分是中文自然中的关技术之算法依赖  
.  
于特征特征的有效性需要大量的基于神经网络算法的起  
( BLSTM)  
使模型特征可能 文中基于中的双向记忆  
神经  
网络模型对中文分进行了研究 首先模语中学中文义向向  
BLSTM ( PKUMSRACTB)  
中文数  
用于  
模型实现分并在中文数据集  
( HKCityU)  
, ,  
数据进行了实验表明 在依赖特征情况基于  
集  
BLSTM  
的中文分好的效果  
: ; ; ;  
关键词 神经网络 双向记忆 中文分词  
: TP391 doi: 10. 3969 /j. issn. 1000-565X. 2017. 03. 009  
中图分类号  
,  
包含重影了中文  
文分自然处理的关技  
, ( 、  
之一 是文文句  
和效率  
传统分方法依赖能很好地解  
) ,  
法分期关处理词  
问题 个关问  
性对自然处理为重要  
很多研究工于基于注的文分方  
传统方法文分领域取得了速  
, , 、  
丰富算法 正向大  
基于注的文分方法词语内部  
.  
基于方法 基于的  
内聚 词语通过统  
方法文分的主  
BMES  
算法子 通过进行对  
, ,  
比 将分成从  
注  
主要使用序列行  
1]  
,  
的目的 然而 由连续文  
Xue  
等 提基于隐马模型语词法分  
HMM  
基于  
模型法  
2]  
, ,  
在大问题 重影终  
3]  
Peng  
CRF  
模型进  
分效果  
( 1)  
方法  
基于子的  
,  
同样一有  
文分对于文分方法括  
4]  
5]  
、  
分方法 分为覆盖  
多高效特征 择  
,  
对于据上语  
将无算法使用特征有  
6]  
果  
,  
方法传统算法依赖于  
( 2)  
问题 具有  
特征 特征有效尝  
, ,  
复杂包含词语分  
,  
验证 因此 文分特征是一巨  
语句很有登  
大的挑战  
: 2016-12-08  
收稿日期  
*
:
基金项目 国家自然科学基金年基金资助项目  
( 61601042)  
Foundation item: Supported by the National Natural Science Foundation of China for Young Scientists( 61601042)  
:
作者简介 洪刚  
( 1974-) , , , . E-mail: zhhg@ bupt. edu. cn  
教授 主要从事研究  
62  
(
华 南 理 工 大 学 学 报 自 然 科 学 版  
)
45  
第 卷  
, ,  
年来 着深基于神经网  
模型自然理领域 如  
、 、  
务  
. Col-  
7]  
lobert  
SENNA ,  
解  
了  
题  
了中感  
8]  
; Zheng  
SENNA  
用  
9]  
; Chen  
算法训练程  
( GRNN)  
神  
文分中 取得了很  
网络  
,  
研究避免特  
自然理领域得了巨  
大的功  
, ,  
研究出的模型 分  
挖掘神经网络在自然处理中  
文分序列依赖信息对文分  
要的传统神经网  
( RNN)  
序列上文信息 无法用  
,  
来信息 问题 个基于双  
( BLSTM)  
神经网络模型 有效利  
忆  
序列数据依赖信息  
1
BLSTM  
模型  
基于  
文分可以成是基于序列注  
1
文分模型框架  
,  
法相用  
Fig. 1 The architecture for Chinese word segmentation  
BMES  
,  
方式来对进行注 对于词 词  
B,  
的第中间为  
M,  
sigmoid  
神经 网 络 用  
数  
E; S.  
后一对于为  
x
x  
x  
1
e - e  
( x) =  
tanh  
( x) =  
  
σ
激  
x  
x
1. 1  
模型框架和流程  
1 - e  
e + e  
基于神经网络序列模型框架  
数为  
( t)  
( t)  
1  
主要构成 量  
( Word  
h
= ( z  
σ
)
( 2)  
Embedding)  
技术成一量  
数为  
( t)  
( t)  
, ,  
矩阵 中间部分是神经网络结构 最后一是  
y
= W h + b  
2
( 3)  
b  
输  
2
用  
Softmax  
方法序列标  
W  
中  
矩阵  
2
2
1  
信息 具体模型框架示  
( t)  
y  
矩阵  
签  
( 1∶ n)  
n
对于子  
c
中选取个  
率  
,  
文和字 长ω 其中上文  
笔者框架的基础上进行中间神  
(
ω  
- 1) /2  
1  
层输度  
BLSTM,  
能够有效序列  
网络入  
1  
ω 过第 相  
依赖信息  
d
量  
v × d  
ω ω  
i
1. 2  
原理介  
( t)  
x
神经网络层  
入矩阵  
1. 2. 1  
技术是将自然处理的  
词向量  
数为  
( t)  
( t)  
技术 技术使用一特征原  
z
= W x + b  
1
( 1)  
b  
1
one-hot  
,  
稀疏词汇 研究明  
来的  
W  
中  
矩阵  
1
1
够很好地法  
矩阵  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载