推荐星级：

单词和字符表示的协同学习

更新时间：2019-12-27 15:00:51 大小：2M 上传用户：IC老兵查看TA发布的资源 标签：协同学习 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

当前的词嵌入模型多数基于分布假设理论,这类模型将单词作为最基本语义单元,然后利用词的外部上下文信息学习词表示.然而,在类似于汉语的语言中,单词经常由多个字符组成,这些字符包含了丰富的内部信息,同时单词的语义也和这些字符的语义息息相关.考虑到当前常用词模型均忽略了字符信息,文中以中文为例,提出了单词与字符表示的协同学习模型.为了解决汉语中存在的单字符多语义和多字符单语义情况,文中提出了基于多原型的单词协同学习模型,并使用词相似任务和类比推理任务对该模型进行评估.结果显示,文中模型的词表示质量均优于其他词嵌入模型.

部分文件列表

文件名	大小
单词和字符表示的协同学习.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

(

)

华南理工大学学报自然科学版

Journal of South China University of Technology

( Natural Science Edition)

Vol． 46 No． 8

August 2018

第

卷第

期

2018

月

年

: 1000-565X( 2018) 08-0122-08

文章编号

单词和字符表示的协同学习

1，2

刘慧婷

凌超

( 1．

，

安徽大学计算智能与信号处理教育部重点实验室安徽合肥

230039;

2．

，

安徽大学计算机科学与技术学院安徽合肥

230601)

: ，

要当前的词嵌入模型多数基于分布假设理论这类模型将单词作为最基本语义单

摘

，．，，

元然后利用词的外部上下文信息学习词表示然而在类似于汉语的语言中单词经常由

，，

多个字符组成这些字符包含了丰富的内部信息同时单词的语义也和这些字符的语义息

．，，

息相关考虑到当前常用词模型均忽略了字符信息文中以中文为例提出了单词与字符

．，

表示的协同学习模型为了解决汉语中存在的单字符多语义和多字符单语义情况文中提

，

出了基于多原型的单词协同学习模型并使用词相似任务和类比推理任务对该模型进行

．，

评估结果显示文中模型的词表示质量均优于其他词嵌入模型

．

: ; ; ;

关键词词表示外部上下文内部信息协同学习

: TP391

doi: 10． 3969 /j． issn． 1000-565X． 2018． 08． 017

中图分类号

，．

近年来分布式词嵌入模型受到极大的关注分

，、

结构复杂的词等学习到实值向量几乎是低质不可

、

布式词嵌入模型旨在将词表示成一个低维实值向

．，

靠的即使那些出现频率较高的词汇分布假设的方

，．

量然后利用低维向量分析词的语义相关性这类词

，

法在区分具有不同语义而相同上下文的单词时也

． “ ” “ ”

存在很大的困难如买和卖这两个词单纯地依

向量表示现已被广泛地应用在各种不同的自然语言

［1］

［2］

，

处理任务中如命名实体识别

、

语言

．

问答系统

靠外部上下文信息很难有效地进行区分

［3-4］

［5］

［6-7］

［8］

、

，

解决上述缺陷比较好的方法是在学习时把词

模型

语义组成

语法解析

及知识提取

［9］

．

等分布式词嵌入模型是基于分布假设理论

，

该

． ( ) ，

的内部信息考虑进去在某些语言中如汉语一

，，

理论指出具有相似上下文的词其含义也有一定的

，

个单词经常由多个字符组成这些字符含有丰富的

．

． “ ” ，

内部信息以中文单词智能为例其语义可以通

相似性

，

目前分布式词嵌入模型最具代表性的是

， “ ” “ ”

过上下文推断同时也可以通过字符智和能推

［10-11］

CBOW

Skip-Gram( SG)

，

．［12-14］，，

测文献证明在学习中文词表示时利用

和

模型

这两个模型不

仅能够从大规模的语料中学习而且提高了词向量

． CBOW

［12］

，

． Chen

等

内部字符信息可以提高词表示的质量

，

通过将内部字符表示加入到单词表示中提出了基

的质量

模型的训练目标是结合上下文单词

，SG

( CWE) ．

预测目标单词

模型则使用目标单词预测上下文

于字符增强的词嵌入模型

但此模型利用内

．，，

单词然而在基于上下文的分布式模型中只有那

，

部字符信息的方式简单有必要探索更有效利用内

［13］

、

些具有足量外部上下文的词能够学习到可靠高质

． Li

等

部字符信息的模型

通过将单字符和双字符

．

量的实值向量在语料库中不是所有的词汇都有足

，

作为基本表示单元提出了一种基于组成增强的中

，、

够数量的上下文故该模型对于新词不常用的词及

．

文字符嵌入模型因为中文单词可能由一到多个字

: 2017-10-23

收稿日期

基金项目国家自然科学基金资助项目

( 61202227) ;

( KJ2018A00B)

安徽省高等学校自然科学研究项目

Foundation item: Supported by the National Natural Science Foundation of China( 61202227)

作者简介刘慧婷

( 1978-) ，，，． E-mail: htliu@ ahu． edu． cn

女副教授主要从事自然语言处理研究

刘慧婷等单词和字符表示的协同学习

123

第

期

，．

符组成所以该模型可能抑制了词向量的学习受

( “

”、“

到来

”) ，

而且利用了内部字符信息

( m ，

智能

［14］

CWE

，Xu

SCWE

提出的模型通过考虑每

启发

等

m ) ( “ ”、“ ”) ．

时代

，

如果不考虑字符信息则

BCW

，

个字符表示对单词表示的贡献度从而增强了单词

CBOW

，

模型其示意图如图

1( a) ．

演变为

所示因为

，

向量的质量但该模型的质量在很大程度上依赖于

，

含有相同字符的单词往往具有相似的向量表示故

［15］

． Liu

前期中英翻译的质量

等

提出了单词嵌入模

BCW

．

模型可以增强单词向量的学习

TWE，

该模型通过单词主题信息来增强单词嵌入

型

，，

表示的学习由于利用主题信息的方式不同学习到

．

的单词表示的质量也不同

［12］， :

文献指出现有模型面临以下困难 ①相

，

比于中文单词中文字符在不同的单词中表达不同

， ;

的语义用一个向量表示字符向量可能不够充分 ②

中文中存在多字符单语义和非组合语义词的情况

(

) ．

如音译词如果模型考虑这些单词的内部字符语

CBOW

BCW

和模型示意图

图

，

义单词和字符的嵌入表示质量均会下降

．

Fig． 1 Schematic diagram of CBOW and BCW models

，

为此文中借鉴应用单词主题信息的多种方式

，

c = { w ，w ，…，w } ，BCW

1 2 N

基于当前语料

模型

．

探讨一种更有效的利用内部字符信息的模型联合

的目标是最大化以下目标函数

，

利用外部上下文信息和内部字符信息文中提出了

BCW

SGC，

和这两个模型分别以

两个词嵌入模型

L( c) =

［log p( w w ，…，w ，w ，…，

∑ i i－l i－1 i+1

［10］

i = 1

CBOW

．

为基础构建的针对单字符多语义

和

s( w )

) +log p( w m ，m ，…，m

i i i

) ］ ( 1)

i+l

，，

问题文中提出了多原型字符嵌入表示即同一字符

p( w w ，…，w ，w ，…，w ) =

i i－l i－1 i+1 i+l

， (

的不同语义对应不同的向量并采用两种方法基

exp( w·P )

i i

)

于位置的方法和基于聚类的方法来区分不同的语

( 2)

exp( w·P )

j i

∑

; ，

义而对于非组合语义类的词汇人为收集一个特殊

∈

，，

词表在训练过程中遇到特殊词表中的词将不会考

exp( w·P )

i i

s( w )

p( w m ，m ，…，m

i i i

) =

( 3)

;

虑其字符信息最后利用多种任务对文中模型进行

exp( w·P )

j i

∑

∈

．

性能评估

，P

P w

分别为的外部上下文和内部字符

i i

式中

和

s( w )

i+l

模型

，P =

的投影向量

w ，P =

j i

m ．

∑ i

∑

2s( w )

j = 1

j = i－l

1． 1

符号定义

≠

p( w w ，…，w ，w ，…，w ) p( w m ，

和

i+l

c = { w ，w ，…，w } ， N ，

指代单词序列语料库单词

1 2 N

由于

i－l

i－1

i+1

s( w )

W． i

字典为语料库中第个单词

∈ 的外部上下文

m ，…，m

)

，

的计算复杂度过高文中采用负采样

［11］

c = ( w ，…，w ，w ，…，w ) ，

i i － l i －1 i +1 i + l

单

为

词

窗口大小为

，

技术来降低复杂度改进的训练目标函数定义为

s( w )

( m ，m ，…，m ) ，s( w )

的内部字符表示为

为单

L( c) = ［log ( w·P ) + kE

log ( － w·P ) +

σ 珟

∑

w ～ p

珘

． w W

中字符的数量每个单词 ∈ 和内部字符

∈

i = 1

log ( w·P ) + kE

log ( － w·P ］

珟

( 4)

d w R ，m R ．

都对应一个维的向量 ∈ ∈

w ～ p

珘

式中 σ

( x) =1 /［1 + exp( － x) ］; k

为负采样的个

1． 2 BCW

模型

0． 75

; w

数珘为负采样单词样本

; p ( w)

珘

#( w)

∝

为负采

现有其他利用字符信息增强词嵌入的模型通过

外部上下文单词所包含的内部字符信息来增强外部

BCW

，

样单词样本的分布表示从分布

p( w)

，

中采样得到

w; #( w)

单词珘

为单词出现在语料库中的次数

．

，

上下文的表示而

目标单词所含的内部字符来预测目标单词

1( b)

模型则通过外部上下文和

． BCW

模

1． 3 SGC

模型

．

“

”

，

型示意图如图

窗口大小

BCW

所示以智能时代到来为例

SGC

2( b)

． “

所示以智能时代

模型的结构如图

l = 1，

对于目标单词

w ( “ ”) ，

时代的预测

” ，

到来为例窗口大小

l = 1，

目标单词

w( “ ”)

时代

( w ，w

i － 1

)

模型不仅利用了外部上下文信息

( w ，w ) ( “

i － 1 i + 1

不仅需要预测外部上下文单词

智

i + 1

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

SYFSSYYFF 打赏3.00元 3天前

资料：诺蒂菲尔4合一编程软件N-VFT V4
我是蒙帆打赏1.00元 3天前

资料：TS-14PFX-4 TS-16PFX-4 调音台说明书
21ic小能手打赏10.00元 3天前

资料：大疆M3508 无刷电机完整驱动程序
21ic小能手打赏10.00元 3天前

资料：智慧景区AI大模型智能安防应用方案
21ic小能手打赏5.00元 3天前

资料：数字政府AI大模型场景应用可行性研究报告
21ic小能手打赏5.00元 3天前

资料：数字县域智慧城市工程总承包（EPC）可行性研究报告Word(
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏210.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏210.00元 3天前

用户：xzxbybd
21ic下载打赏70.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：kk1957135547

21ic下载打赏15.00元 3天前

用户：w993263495
21ic下载打赏30.00元 3天前

用户：SkyEagle88
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏5.00元 3天前

用户：dong2223333
21ic下载打赏10.00元 3天前

用户：dxb3320
21ic下载打赏10.00元 3天前

用户：DXB193394
21ic下载打赏10.00元 3天前

用户：westup
21ic小能手打赏15.00元 3天前

资料：stm32的单片机带云台智能小车有图像识别
21ic小能手打赏20.00元 3天前

资料：科创大赛“料理人生”厨房智能机器人项目资料包
21ic小能手打赏8.00元 3天前

资料：久坐智能提醒坐垫项目申报书资料
21ic小能手打赏5.00元 3天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 3天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 3天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 3天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 3天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 3天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路

单词和字符表示的协同学习

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页