推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于加权超图随机游走的文献关键词提取算法

更新时间:2019-12-24 00:45:19 大小:1M 上传用户:守着阳光1985查看TA发布的资源 标签:文献关键词提取算法 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

针对科技文献类标题短文本关键词提取时,已有自然语言处理算法难以建模文献时间与权威性且短文本词语较少建模往往存在高维稀疏问题,本文提出了一个综合实时性以及权威性的关键词提取算法为研究者进行相关推荐.该方法将文献标题视为超边,将标题中不同词项视为超点来构建超图,并对超图中的超边与超点同时加权,进而设计一种基于加权超图随机游走的关键词提取算法对文献标题的词项进行提取.该模型通过对文献来源,发表年份以及被引次数建模来对超边进行加权,根据节点之间的关联度以及每对节点在特定标题中的共现距离对超点加权.最后,通过超图上的随机游走计算出节点的重要性进而确立可推荐的关键词.实验表明,与三种基准短文本关键词提取算法相比,本文算法在精确率和召回率方面均有所提高.


部分文件列表

文件名 大小
基于加权超图随机游走的文献关键词提取算法.pdf 1M

部分页面预览

(完整内容请下载后查看)
6
Vol. 46 No. 6  
Jun. 2018  
2018  
6
ACTA ELECTRONICA SINICA  
于加献  
取算法  
, , ,  
马慧芳 芳 夏 琴 郝占军  
(
西师范大学科学工程学院 州  
730070)  
:
针对科技已有自然建模与权文  
建模往往存在稀疏文提出了一时性性的取算研究相  
, , ,  
关推方法题中点来并对中的同时进  
,  
而设计一于加取算对文题的项进行提模型对文献来份  
.  
建模来行加权 根据节点之间度以节点题中的现距离最  
,  
节点性进而确可推实验表明 与三取  
法在面均有所提高  
:
;
;
;
;
;
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
自然挖掘  
TP393. 092 0372-2112 ( 2018) 06-1410-05  
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 06. 020  
:
:
A
:
文章编号  
文献标识码  
电子学报  
Keywords Extraction Algorithm Based on  
Weighted Hypergraph Random Walk  
MA Hui-fangLIU FangXIA QinHAO Zhan-jun  
( College of Computer Science and EngineeringNorthwest Normal UniversityLanzhouGansu 730070China)  
Abstract: It is difficult for the existing natural language processing algorithms to model the time and authority of  
short texts such as paper titles of scientific literature. Besidesthe short texts always tend to have fewer words and thus suffer  
from high dimension and sparsity. A keyword extraction method involving both real-time and authoritativeness is presented.  
A weighted hyper-graph is constructed where vertexes represent weighted terms and weighted hyper-edges measure the se-  
mantic relatedness of both binary relations and nary relations among terms. On one handthe source of the documentsthe  
year of publication and number of citations are considered for weighting hyper-edgeson the other handthe degree of associ-  
ation between the nodes and co-occurrence distance for each pair of nodes in particular title are calculated for weighting hy-  
per-vertexes. The random walk approach is performed on the weighted hyper-graph to obtain the recommended keywords.  
Experimental results demonstrated that compared with three baseline algorithmsthe proposed approach is able to extract key-  
words with higher precision and recall.  
Key words: weighted hypergraph; weighting strategy; keywords extraction; random walk; natural language process-  
ing; data mining  
也是识概念表达和的主形  
1
引言  
,  
文所定的研究为文已有的研究主  
理关科技过  
:
研究领域 于  
,  
程中对文献而对文  
应用 部分研究问  
: 2017-01-23;  
: 2017-07-20; :  
责任编辑 覃怀银  
收稿日期  
修回日期  
:
基金项目 国家自然科学基金  
( No. 61762078No. 61363058No. 61762079No. 61762080) ;  
( No.  
中科院信息课题  
IIP2014-4) ;  
( No. kx201705)  
广西实验研究课题  
1411  
6
:
于加取算法  
12]  
, ,  
方法需要事先标训练预  
v
e .  
示矩阵  
理代较高 监督的主方法纳  
H
( 1)  
中的式  
示  
w
: 、  
特征主题模型的  
w( v ) , v  
e
e
h ( ve) =  
w
( 1)  
{
特征关  
0,  
d( v)  
v
e
3]  
方法考虑项统信息  
但忽略的  
d( e)  
度  
度  
4]  
. Song  
和文主题分义特征  
考虑词  
( 2)  
( 3)  
式  
和式  
示  
之间度和关因素 模型了  
d( v) =  
w( e) h( ve)  
( 2)  
5]  
e
E
. Hua  
提出了现距离概念 用来惩罚  
步改进  
d( e) =  
w( v ) h( ve)  
e
( 3)  
些共但间主题模型关  
v
V
方法在来得到了主题模型中基于  
, ,  
本  
( Latent Dirichlet AllocationLDA)  
配  
方法应用最为广泛  
训练的主题分词  
详细介绍具体及  
67]  
效  
d
e
的  
2. 1. 1  
科学研究定研究时  
代表定的边  
i
权策略  
8]  
方法模型提出  
的方法应用区  
对该领域根据文  
性 然模型所  
R  
来确即  
( d ) .  
i
依据中国计  
paper-rank  
提出取算仅仅考虑之间元  
( http: / /www. ccf. org. cn)  
会  
给出性  
, ,  
忽略了文因素 这  
信息 分别选取  
ABC  
三类为实验其  
- -  
就需要建档 词 词 词之间阶  
R
( d )  
i
( 4)  
的  
式  
示  
1,  
2 /3d  
paper-rank  
9]  
. Zhou  
系的模型 模型  
已提出的  
提出的方法研究人  
提 出 了 半 监 督 序 算 法 的  
d
A
B
C
l
l
l
Zhou  
方法 基于  
R
=
( 4)  
paper-rank( di)  
{
1 /3d  
10]  
义  
R
时性近  
数  
time-quote  
文提出一于加提  
, , ;  
时性引  
, ,  
取算题中为  
, ,  
该文领域相应也越  
点来模型 考虑的  
具体下  
:
, ,  
信息量文献来源 文献  
( c yi) + 1  
k + 1  
和文同时定之间联  
R
( d ) = e  
i
( 5)  
time-quote  
, ,  
度 以项在题中的现距离等  
c
y
代表该文为  
i
的方法  
k .  
数  
行推广  
d
下  
i
:
w( d ) = R  
λ
i
( d ) + ( 1 - ) R  
λ
i
( d ) ( 6)  
i
paper-rank  
time-quote  
2
超点权策略  
01, ,  
λ 为值之间代表更  
d  
具体地 将为一同的词  
i
d
i
; , ,  
献来时性被  
= { v v v }  
词袋模型 而题的集合  
s
,  
根据 λ 定  
1
2
D = { d d d }  
m
文所词汇且标  
λ 值 实验随着 λ 值增法性能先提  
1
2
T = d  
d
d = { v v ,  
1
题中所有关集合为  
后下降 且λ  
= 0. 7  
达到因而设  
1
2
m
2
v } .  
n
0. 7.  
λ 值为  
2. 1. 2  
点之间度 关度以及在共  
2. 1  
图模型构建  
HG( VE)  
超点权策略  
V E  
点集合  
. e  
集合 上是点集合的子∪  
e
. d ,  
现距离对于点  
l
e
E
= V.  
v e e v.  
可  
v
v v v d co d ( v v )  
它们如  
l
i
j
i
j
l
i
j
H v eH  
用指示矩阵 ∈  
h( ve) =  
中的素  
( 7)  
示  
- distd ( vivj)  
l
1,  
则  
h( ve) = 0.  
co d ( v v ) = n( d ) × e  
j
( 7)  
d
在 中的  
l
i
l
WHG( VEw ( e) w ( v ) )  
e
为加 中  
dist ( v v )  
dl  
v
v
现距离  
点  
i
j
i
j
l
+
+
w( e) : e  
R
e
代表重  
w( v ) : v  
e
R
代表超  
数  
e

全部评论(0)

暂无评论