推荐星级:
- 1
- 2
- 3
- 4
- 5
基于加权超图随机游走的文献关键词提取算法
资料介绍
针对科技文献类标题短文本关键词提取时,已有自然语言处理算法难以建模文献时间与权威性且短文本词语较少建模往往存在高维稀疏问题,本文提出了一个综合实时性以及权威性的关键词提取算法为研究者进行相关推荐.该方法将文献标题视为超边,将标题中不同词项视为超点来构建超图,并对超图中的超边与超点同时加权,进而设计一种基于加权超图随机游走的关键词提取算法对文献标题的词项进行提取.该模型通过对文献来源,发表年份以及被引次数建模来对超边进行加权,根据节点之间的关联度以及每对节点在特定标题中的共现距离对超点加权.最后,通过超图上的随机游走计算出节点的重要性进而确立可推荐的关键词.实验表明,与三种基准短文本关键词提取算法相比,本文算法在精确率和召回率方面均有所提高.
部分文件列表
文件名 | 大小 |
基于加权超图随机游走的文献关键词提取算法.pdf | 1M |
部分页面预览
(完整内容请下载后查看)6
Vol. 46 No. 6
Jun. 2018
第
期
电
子
学
报
2018
6
ACTA ELECTRONICA SINICA
年
月
基于加权超图随机游走的文献
关键词提取算法
, , ,
马慧芳 刘 芳 夏 琴 郝占军
(
,
西北师范大学计算机科学与工程学院 甘肃兰州
730070)
:
,
针对科技文献类标题短文本关键词提取时 已有自然语言处理算法难以建模文献时间与权威性且短文
摘
要
,
本词语较少建模往往存在高维稀疏问题 本文提出了一个综合实时性以及权威性的关键词提取算法为研究者进行相
. , , ,
关推荐 该方法将文献标题视为超边 将标题中不同词项视为超点来构建超图 并对超图中的超边与超点同时加权 进
. ,
而设计一种基于加权超图随机游走的关键词提取算法对文献标题的词项进行提取 该模型通过对文献来源 发表年份
, .
以及被引次数建模来对超边进行加权 根据节点之间的关联度以及每对节点在特定标题中的共现距离对超点加权 最
, . ,
后 通过超图上的随机游走计算出节点的重要性进而确立可推荐的关键词 实验表明 与三种基准短文本关键词提取
,
算法相比 本文算法在精确率和召回率方面均有所提高
.
:
;
;
;
;
;
关键词
中图分类号
URL: http: / /www. ejournal. org. cn
加权超图 加权策略 关键词推荐 随机游走 自然语言处理 数据挖掘
TP393. 092 0372-2112 ( 2018) 06-1410-05
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 06. 020
:
:
A
:
文章编号
文献标识码
电子学报
Keywords Extraction Algorithm Based on
Weighted Hypergraph Random Walk
MA Hui-fang,LIU Fang,XIA Qin,HAO Zhan-jun
( College of Computer Science and Engineering,Northwest Normal University,Lanzhou,Gansu 730070,China)
Abstract: It is difficult for the existing natural language processing algorithms to model the time and authority of
short texts such as paper titles of scientific literature. Besides,the short texts always tend to have fewer words and thus suffer
from high dimension and sparsity. A keyword extraction method involving both real-time and authoritativeness is presented.
A weighted hyper-graph is constructed where vertexes represent weighted terms and weighted hyper-edges measure the se-
mantic relatedness of both binary relations and nary relations among terms. On one hand,the source of the documents,the
year of publication and number of citations are considered for weighting hyper-edges,on the other hand,the degree of associ-
ation between the nodes and co-occurrence distance for each pair of nodes in particular title are calculated for weighting hy-
per-vertexes. The random walk approach is performed on the weighted hyper-graph to obtain the recommended keywords.
Experimental results demonstrated that compared with three baseline algorithms,the proposed approach is able to extract key-
words with higher precision and recall.
Key words: weighted hypergraph; weighting strategy; keywords extraction; random walk; natural language process-
ing; data mining
,
献的高度性总结 也是知识概念表达和交流的主要形
1
引言
. ,
式 本文所选定的研究对象为文献标题 已有的研究主
如何选择合理关键词进行检索是科技文献检索过
:
要涉及以下两个研究领域 短文本关键词抽取和基于
. ,
程中经常遇到的问题 对文献而言 其标题本身是对文
.
超图的应用 部分研究者把关键词抽取看作是分类问
: 2017-01-23;
: 2017-07-20; :
责任编辑 覃怀银
收稿日期
修回日期
:
基金项目 国家自然科学基金
( No. 61762078,No. 61363058,No. 61762079,No. 61762080) ;
( No.
中科院智能信息处理重点实验室开放课题
IIP2014-4) ;
( No. kx201705)
广西可信软件重点实验室研究课题
1411
6
:
马慧芳 基于加权超图随机游走的文献关键词提取算法
第
期
[1,2]
, ,
该方法需要事先标注高质量训练数据 人工预
v
e .
在特定超边 上的权重 带权重的超图指示矩阵
题
点
.
处理代价较高 无监督关键词抽取的主流方法可归纳
H
( 1)
.
中的元素定义如式
所示
w
: 、
为三种 基于统计特征的关键词抽取 基于主题模型的
w( v ) , v
e
e
∈
h ( v,e) =
w
( 1)
{
.
关键词抽取和基于图的关键词抽取 基于统计特征关
0,
d( v)
v
e
[3]
,
键词抽取方法考虑词项统计信息
但忽略了重要的
d( e)
定
在加权超图中超点的度
与超边的度
[4]
. Song
低频词和文档主题分布语义特征
等
考虑了词
( 2)
( 3)
.
义分别如式
和式
所示
,
与词之间的共现度和关联度等因素 对传统模型做了
d( v) =
w( e) h( v,e)
( 2)
∑
[5]
e
E
∈
. Hua
,
提出了共现距离概念 用来惩罚
进一步改进
等
d( e) =
w( v ) h( v,e)
e
( 3)
.
那些共同出现但间隔较远的词对 基于主题模型的关
∑
v
V
∈
,
键词抽取方法在近年来得到了重视 主题模型中基于
, ,
与普通超图相比 加权超图中超边和超点皆有权重 本
( Latent Dirichlet Allocation,LDA)
潜在狄立克雷分配
关键词抽取方法应用最为广泛
果与训练数据的主题分布关系密切 基于图的关键词
的
,
节详细介绍对超边和超点加权的具体策略 文中提及
[6,7]
,
其关键词抽取的效
d
e
,
.
到的
2. 1. 1
对科学研究而言 所选定研究对象的权威性 实时
与
同义 皆代表某条特定的超边
i
.
超边加权策略
. [8]
抽取方法所建立的图模型皆为普通图 文献 中提出
,
,
,
的方法应用最邻近耦合图构造图 结合向心率以及区
.
性以及它对该领域的贡献率是极为重要 本文根据文
.
域位置因子来衡量词语的重要性 然而基于图模型所
, R
献的来源来确定其权威性 即
( d ) .
i
依据中国计
paper-rank
提出的关键词抽取算法仅仅考虑了词与词之间的二元
( http: / /www. ccf. org. cn)
算机学会
给出的文献重要性
, ,
共现关系 忽略了文档本身所携带的社会属性因素 这
,
分类信息 分别选取
A、B、C
,
三类的文献为实验数据 其
- , -
就需要建立一个能全面揭示文档 词 词 词之间的高阶
R
( d )
i
( 4)
.
对应的
值如式
所示
1,
2 /3, d
paper-rank
[9]
,
. Zhou
等
关系的模型 如超图模型
已提出基于超图的
等人提出的方法其他研究人
员提 出 了 基 于 超 图 的 半 监 督 关 键 词 排 序 算 法 的
d
A
B
C
∈
∈
∈
l
l
l
,
Zhou
随机游走方法 基于
R
=
( 4)
paper-rank( di)
{
1 /3, d
[10]
.
定义
R
.
来表征文献的实时性与被引次数 近
构建函数
time-quote
本文提出一种基于加权超图随机游走的关键词提
, , ;
期所发表的文献 实时性越强 其值就越大 文献的被引
, ,
取算法 将文献标题视为超边 将标题中不同词项视为
, ,
次数越多 该文献对相关领域贡献越大 其值相应也越
.
超点来构建了超图模型 通过考虑文献自身所携带的
.
大 具体函数如下
:
, ,
社会信息来衡量文献自身的重要性 如文献来源 文献
( c - yi) + 1
k + 1
-
.
被引次数和文献发表时间 同时定义词项之间的关联
R
( d ) = e
i
( 5)
time-quote
, ,
度 共现度 以及每对词项在特定标题中的共现距离等
c
y
,
分别代表当前时间与该文献的出版时间 以年为
和
i
.
完成超图的超边和超点加权 最后将随机游走的方法
,k .
单位 为被引次数
.
在超图上进行推广
d
最终计算超边 权重如下
i
:
w( d ) = R
λ
i
( d ) + ( 1 - ) R
λ
i
( d ) ( 6)
i
paper-rank
time-quote
2
超边与超点的加权策略
[0,1] , ,
λ 为值域在 之间的平滑因子 其值越大 代表更
, d
具体地 将某标题 视为一个由不同的关键词
i
d
i
; , ,
注重文献来源 相反 其值越小 更注重文献实时性与被
= { v ,v ,…,v }
,
所组成的词袋模型 而这些标题的集合
s
. ,
引次数 根据 λ 的不同取值来调节超边加权 进而选定
1
2
D = { d ,d ,…,d }
m
,
即为本文所定义的词汇超图 且标
.
最优 λ 值 实验中发现随着 λ 取值增大算法性能先提
1
2
T = d
d
…
d = { v ,v ,
∪
1
题中所有关键词集合为
∪
∪
,
升后下降 且当 λ
= 0. 7
,
时推荐精确率达到峰值 因而设
1
2
m
2
…,v } .
n
0. 7.
定 λ 值为
2. 1. 2
通过超点之间的共现度 关联度以及在特定超边共
2. 1
加权超图模型构建
HG( V,E)
超点加权策略
, V ,E
表示普通超图 其中 为超点集合
设
,
. e
为超边集合 超边 实质上是超点集合的子集且∪
e
. d ,
现距离对超点在特定超边中加权 对于超边 给定超点
l
e
E
∈
= V.
v e , e v.
当 ∈ 时 称超边 指向顶点 一个普通超图可
v
v ,v ,v d , co d ( v ,v )
∈ 它们在该超边的共现度 如
l
与
i
j
i
j
l
-
i
j
H , v e,H
以用指示矩阵 来表示 若 ∈
h( v,e) =
中的元素
( 7)
.
所示
式
- distd ( vi,vj)
l
1,
否则
h( v,e) = 0.
co d ( v ,v ) = n( d ) × e
j
( 7)
d
在 中间隔的
-
l
i
l
WHG( V,E,w ( e) ,w ( v ) )
e
,
为加 权 超图 其中
设
dist ( v ,v )
dl
v
v
其中共现距离
即超点
与
i
j
i
j
l
+
+
w( e) : e
R
e
代表超边 的权重
,w( v ) : v
e
R
代表超
→
→
.
单词个数
e
全部评论(0)