推荐星级:
- 1
- 2
- 3
- 4
- 5
单词和字符表示的协同学习
资料介绍
当前的词嵌入模型多数基于分布假设理论,这类模型将单词作为最基本语义单元,然后利用词的外部上下文信息学习词表示.然而,在类似于汉语的语言中,单词经常由多个字符组成,这些字符包含了丰富的内部信息,同时单词的语义也和这些字符的语义息息相关.考虑到当前常用词模型均忽略了字符信息,文中以中文为例,提出了单词与字符表示的协同学习模型.为了解决汉语中存在的单字符多语义和多字符单语义情况,文中提出了基于多原型的单词协同学习模型,并使用词相似任务和类比推理任务对该模型进行评估.结果显示,文中模型的词表示质量均优于其他词嵌入模型.
部分文件列表
文件名 | 大小 |
单词和字符表示的协同学习.pdf | 2M |
部分页面预览
(完整内容请下载后查看)(
)
华 南 理 工 大 学 学 报 自 然 科 学 版
Journal of South China University of Technology
( Natural Science Edition)
46
8
Vol. 46 No. 8
August 2018
第
卷 第
期
2018
8
月
年
: 1000-565X( 2018) 08-0122-08
文章编号
单词和字符表示的协同学习
1,2
1,2
刘慧婷
凌超
( 1.
,
安徽大学 计算智能与信号处理教育部重点实验室 安徽 合肥
230039;
2.
,
安徽大学 计算机科学与技术学院 安徽 合肥
230601)
: ,
要 当前的词嵌入模型多数基于分布假设理论 这类模型将单词作为最基本语义单
摘
, . , ,
元 然后利用词的外部上下文信息学习词表示 然而 在类似于汉语的语言中 单词经常由
, ,
多个字符组成 这些字符包含了丰富的内部信息 同时单词的语义也和这些字符的语义息
. , ,
息相关 考虑到当前常用词模型均忽略了字符信息 文中以中文为例 提出了单词与字符
. ,
表示的协同学习模型 为了解决汉语中存在的单字符多语义和多字符单语义情况 文中提
,
出了基于多原型的单词协同学习模型 并使用词相似任务和类比推理任务对该模型进行
. ,
评估 结果显示 文中模型的词表示质量均优于其他词嵌入模型
.
: ; ; ;
关键词 词表示 外部上下文 内部信息 协同学习
: TP391
doi: 10. 3969 /j. issn. 1000-565X. 2018. 08. 017
中图分类号
, .
近年来 分布式词嵌入模型受到极大的关注 分
, 、
结构复杂的词等 学习到实值向量几乎是低质 不可
、
布式词嵌入模型旨在将词表示成一个低维 实值向
. ,
靠的 即使那些出现频率较高的词汇 分布假设的方
, .
量 然后利用低维向量分析词的语义相关性 这类词
,
法在区分具有不同语义而相同上下文的单词时 也
. “ ” “ ”
存在很大的困难 如 买 和 卖 这两个词单纯地依
向量表示现已被广泛地应用在各种不同的自然语言
[1]
[2]
,
处理任务中 如命名实体识别
、
、
语言
.
问答系统
靠外部上下文信息很难有效地进行区分
[3-4]
[5]
[6-7]
[8]
、
、
,
解决上述缺陷比较好的方法 是在学习时把词
模型
语义组成
语法解析
及知识提取
[9]
.
等 分布式词嵌入模型是基于分布假设理论
,
该
. ( ) ,
的内部信息考虑进去 在某些语言中 如汉语 一
, ,
理论指出 具有相似上下文的词 其含义也有一定的
,
个单词经常由多个字符组成 这些字符含有丰富的
.
. “ ” ,
内部信息 以中文单词 智能 为例 其语义可以通
相似性
,
目前 分 布 式 词 嵌 入 模 型 最 具 代 表 性 的 是
, “ ” “ ”
过上下文推断 同时也可以通过字符 智 和 能 推
[10-11]
CBOW
Skip-Gram( SG)
,
. [12-14] , ,
测 文献 证明 在学习中文词表示时 利用
和
模型
这两个模型不
仅能够从大规模的语料中学习 而且提高了词向量
. CBOW
[12]
,
. Chen
等
内部字符信息可以提高词表示的质量
,
通过将内部字符表示加入到单词表示中 提出了基
的质量
模型的训练目标是结合上下文单词
,SG
( CWE) .
预测目标单词
模型则使用目标单词预测上下文
于字符增强的词嵌入模型
但此模型利用内
. , ,
单词 然而 在基于上下文的分布式模型中 只有那
,
部字符信息的方式简单 有必要探索更有效利用内
[13]
、
些具有足量外部上下文的词能够学习到可靠 高质
. Li
等
部字符信息的模型
通过将单字符和双字符
.
量的实值向量 在语料库中不是所有的词汇都有足
,
作为基本表示单元 提出了一种基于组成增强的中
, 、
够数量的上下文 故该模型对于新词 不常用的词及
.
文字符嵌入模型 因为中文单词可能由一到多个字
: 2017-10-23
收稿日期
:
基金项目 国家自然科学基金资助项目
( 61202227) ;
( KJ2018A00B)
安徽省高等学校自然科学研究项目
Foundation item: Supported by the National Natural Science Foundation of China( 61202227)
:
作者简介 刘慧婷
( 1978-) , , , . E-mail: htliu@ ahu. edu. cn
女 副教授 主要从事自然语言处理研究
8
:
刘慧婷 等 单词和字符表示的协同学习
123
第
期
1
, .
符组成 所以该模型可能抑制了词向量的学习 受
( “
”、“
到来
”) ,
而且利用了内部字符信息
( m ,
i
智能
[14]
2
CWE
,Xu
SCWE
提出的 模型通过考虑每
启发
等
m ) ( “ ”、“ ”) .
时 代
i
,
如果不考虑字符信息 则
BCW
,
个字符表示对单词表示的贡献度 从而增强了单词
CBOW
,
模型 其示意图如图
1( a) .
演变为
所示 因为
,
向量的质量 但该模型的质量在很大程度上依赖于
,
含有相同字符的单词往往具有相似的向量表示 故
[15]
. Liu
前期中英翻译的质量
等
提出了单词嵌入模
BCW
.
模型可以增强单词向量的学习
TWE,
该模型通过单词主题信息来增强单词嵌入
型
, ,
表示的学习 由于利用主题信息的方式不同 学习到
.
的单词表示的质量也不同
[12] , :
文献 指出 现有模型面临以下困难 ①相
,
比于中文单词 中文字符在不同的单词中表达不同
, ;
的语义 用一个向量表示字符向量可能不够充分 ②
中文中存在多字符单语义和非组合语义词的情况
(
) .
如音译词 如果模型考虑这些单词的内部字符语
1
CBOW
BCW
和 模型示意图
图
,
义 单词和字符的嵌入表示质量均会下降
.
Fig. 1 Schematic diagram of CBOW and BCW models
,
为此 文中借鉴应用单词主题信息的多种方式
,
c = { w ,w ,…,w } ,BCW
1 2 N
基于当前语料
模型
.
探讨一种更有效的利用内部字符信息的模型 联合
:
的目标是最大化以下目标函数
,
利用外部上下文信息和内部字符信息 文中提出了
N
BCW
SGC,
和 这两个模型分别以
两个词嵌入模型
L( c) =
[log p( w w ,…,w ,w ,…,
∑ i i-l i-1 i+1
[10]
i = 1
CBOW
SG
.
为基础构建的 针对单字符多语义
和
1
2
s( w )
i
w
) +log p( w m ,m ,…,m
i i i
) ] ( 1)
i+l
i
, ,
问题 文中提出了多原型字符嵌入表示 即同一字符
p( w w ,…,w ,w ,…,w ) =
i i-l i-1 i+1 i+l
, (
的不同语义对应不同的向量 并采用两种方法 基
c
exp( w·P )
i i
)
于位置的方法和基于聚类的方法 来区分不同的语
( 2)
c
exp( w·P )
j i
∑
; ,
义 而对于非组合语义类的词汇 人为收集一个特殊
w
W
∈
j
m
, ,
词表 在训练过程中遇到特殊词表中的词 将不会考
exp( w·P )
i i
1
2
s( w )
i
p( w m ,m ,…,m
i i i
) =
( 3)
i
;
虑其字符信息 最后利用多种任务对文中模型进行
m
exp( w·P )
j i
∑
w
W
∈
j
.
性能评估
c
m
,P
P w
分别为 的外部上下文和内部字符
i i
式中
和
i
s( w )
i
1
i+l
模型
1
1
c
m
j
,P =
的投影向量
i
w ,P =
j i
m .
∑ i
∑
2l
2s( w )
j = 1
i
j = i-l
1. 1
符号定义
j
i
≠
1
p( w w ,…,w ,w ,…,w ) p( w m ,
和
i+l
c = { w ,w ,…,w } , N ,
指代 单词序列语料库 单词
1 2 N
由于
i
i-l
i-1
i+1
i
i
2
s( w )
i
W. i
字典为 语料库中第 个单词
w
W
∈ 的外部上下文
m ,…,m
i
)
,
的计算复杂度过高 文中采用负采样
i
i
[11]
c = ( w ,…,w ,w ,…,w ) ,
i i - l i -1 i +1 i + l
l;
单
为
词
词
M
窗口大小为
,
技术 来降低复杂度 改进的训练目标函数定义为
1
2
s( w )
i
( m ,m ,…,m ) ,s( w )
的内部字符表示为
N
w
为单
i
i
i
i
i
i
c
c
L( c) = [log ( w·P ) + kE
σ
i
log ( - w·P ) +
σ 珟
i
∑
i
w ~ p
珘
w
珘
w
. w W
中字符的数量 每个单词 ∈ 和内部字符
m
∈
i = 1
m
m
d
d
log ( w·P ) + kE
σ
i
log ( - w·P ]
珟
i
( 4)
σ
d w R ,m R .
都对应一个 维的向量 ∈ ∈
i
w ~ p
珘
w
珘
:
式中 σ
( x) =1 /[1 + exp( - x) ]; k
为负采样的个
1. 2 BCW
模型
0. 75
; w
数 珘为负采样单词样本
; p ( w)
w
珘
#( w)
∝
为负采
现有其他利用字符信息增强词嵌入的模型通过
外部上下文单词所包含的内部字符信息来增强外部
BCW
,
样单词样本的分布 表示从分布
p( w)
,
中采样 得到
w; #( w)
单词 珘
w
为单词 出现在语料库中的次数
.
,
上下文的表示 而
目标单词所含的内部字符来预测目标单词
1( b)
模型则通过外部上下文和
. BCW
模
1. 3 SGC
模型
.
“
”
,
型示意图如图
窗口大小
BCW
所示 以 智能时代到来 为例
SGC
2( b)
. “
所示 以 智能时代
模型的结构如图
l = 1,
对于目标单词
w ( “ ”) ,
时代 的预测
1
” ,
到来 为例 窗口大小
l = 1,
目标单词
w( “ ”)
时代
i
( w ,w
i - 1
)
模型不仅利用了外部上下文信息
( w ,w ) ( “
i - 1 i + 1
不仅需要预测外部上下文单词
智
i + 1
全部评论(0)