您现在的位置是：首页 > 技术资料 > 基于加权超图随机游走的文献关键词提取算法

推荐星级：

基于加权超图随机游走的文献关键词提取算法

更新时间：2019-12-24 00:45:19 大小：1M 上传用户：守着阳光1985 查看TA发布的资源 标签：文献关键词提取算法 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

针对科技文献类标题短文本关键词提取时,已有自然语言处理算法难以建模文献时间与权威性且短文本词语较少建模往往存在高维稀疏问题,本文提出了一个综合实时性以及权威性的关键词提取算法为研究者进行相关推荐.该方法将文献标题视为超边,将标题中不同词项视为超点来构建超图,并对超图中的超边与超点同时加权,进而设计一种基于加权超图随机游走的关键词提取算法对文献标题的词项进行提取.该模型通过对文献来源,发表年份以及被引次数建模来对超边进行加权,根据节点之间的关联度以及每对节点在特定标题中的共现距离对超点加权.最后,通过超图上的随机游走计算出节点的重要性进而确立可推荐的关键词.实验表明,与三种基准短文本关键词提取算法相比,本文算法在精确率和召回率方面均有所提高.

部分文件列表

文件名	大小
基于加权超图随机游走的文献关键词提取算法.pdf	1M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

Vol． 46 No． 6

Jun． 2018

第

期

电

子

学

报

2018

ACTA ELECTRONICA SINICA

年

月

基于加权超图随机游走的文献

关键词提取算法

，，，

马慧芳刘芳夏琴郝占军

(

，

西北师范大学计算机科学与工程学院甘肃兰州

730070)

，

针对科技文献类标题短文本关键词提取时已有自然语言处理算法难以建模文献时间与权威性且短文

摘

要

，

本词语较少建模往往存在高维稀疏问题本文提出了一个综合实时性以及权威性的关键词提取算法为研究者进行相

．，，，

关推荐该方法将文献标题视为超边将标题中不同词项视为超点来构建超图并对超图中的超边与超点同时加权进

．，

而设计一种基于加权超图随机游走的关键词提取算法对文献标题的词项进行提取该模型通过对文献来源发表年份

，．

以及被引次数建模来对超边进行加权根据节点之间的关联度以及每对节点在特定标题中的共现距离对超点加权最

，．，

后通过超图上的随机游走计算出节点的重要性进而确立可推荐的关键词实验表明与三种基准短文本关键词提取

，

算法相比本文算法在精确率和召回率方面均有所提高

．

;

关键词

中图分类号

URL: http: / /www． ejournal． org． cn

加权超图加权策略关键词推荐随机游走自然语言处理数据挖掘

TP393. 092 0372-2112 ( 2018) 06-1410-05

DOI: 10． 3969 /j． issn． 0372-2112． 2018． 06． 020

文章编号

文献标识码

电子学报

Keywords Extraction Algorithm Based on

Weighted Hypergraph Random Walk

MA Hui-fang，LIU Fang，XIA Qin，HAO Zhan-jun

( College of Computer Science and Engineering，Northwest Normal University，Lanzhou，Gansu 730070，China)

Abstract: It is difficult for the existing natural language processing algorithms to model the time and authority of

short texts such as paper titles of scientific literature． Besides，the short texts always tend to have fewer words and thus suffer

from high dimension and sparsity． A keyword extraction method involving both real-time and authoritativeness is presented．

A weighted hyper-graph is constructed where vertexes represent weighted terms and weighted hyper-edges measure the se-

mantic relatedness of both binary relations and nary relations among terms． On one hand，the source of the documents，the

year of publication and number of citations are considered for weighting hyper-edges，on the other hand，the degree of associ-

ation between the nodes and co-occurrence distance for each pair of nodes in particular title are calculated for weighting hy-

per-vertexes． The random walk approach is performed on the weighted hyper-graph to obtain the recommended keywords．

Experimental results demonstrated that compared with three baseline algorithms，the proposed approach is able to extract key-

words with higher precision and recall．

Key words: weighted hypergraph; weighting strategy; keywords extraction; random walk; natural language process-

ing; data mining

，

献的高度性总结也是知识概念表达和交流的主要形

引言

．，

式本文所选定的研究对象为文献标题已有的研究主

如何选择合理关键词进行检索是科技文献检索过

要涉及以下两个研究领域短文本关键词抽取和基于

．，

程中经常遇到的问题对文献而言其标题本身是对文

．

超图的应用部分研究者把关键词抽取看作是分类问

: 2017-01-23;

: 2017-07-20; :

责任编辑覃怀银

收稿日期

修回日期

基金项目国家自然科学基金

( No． 61762078，No． 61363058，No． 61762079，No． 61762080) ;

( No．

中科院智能信息处理重点实验室开放课题

IIP2014-4) ;

( No． kx201705)

广西可信软件重点实验室研究课题

1411

马慧芳基于加权超图随机游走的文献关键词提取算法

第

期

［1，2］

，，

该方法需要事先标注高质量训练数据人工预

e ．

在特定超边上的权重带权重的超图指示矩阵

题

点

．

处理代价较高无监督关键词抽取的主流方法可归纳

( 1)

．

中的元素定义如式

所示

: 、

为三种基于统计特征的关键词抽取基于主题模型的

w( v ) ， v

∈

h ( v，e) =

( 1)

{

．

关键词抽取和基于图的关键词抽取基于统计特征关

0，

d( v)



［3］

，

键词抽取方法考虑词项统计信息

但忽略了重要的

d( e)

定

在加权超图中超点的度

与超边的度

［4］

． Song

低频词和文档主题分布语义特征

等

考虑了词

( 2)

( 3)

．

义分别如式

和式

所示

，

与词之间的共现度和关联度等因素对传统模型做了

d( v) =

w( e) h( v，e)

( 2)

∑

［5］

∈

． Hua

，

提出了共现距离概念用来惩罚

进一步改进

等

d( e) =

w( v ) h( v，e)

( 3)

．

那些共同出现但间隔较远的词对基于主题模型的关

∑

∈

，

键词抽取方法在近年来得到了重视主题模型中基于

，，

与普通超图相比加权超图中超边和超点皆有权重本

( Latent Dirichlet Allocation，LDA)

潜在狄立克雷分配

关键词抽取方法应用最为广泛

果与训练数据的主题分布关系密切基于图的关键词

的

，

节详细介绍对超边和超点加权的具体策略文中提及

［6，7］

，

其关键词抽取的效

，

．

到的

2． 1． 1

对科学研究而言所选定研究对象的权威性实时

与

同义皆代表某条特定的超边

．

超边加权策略

．［8］

抽取方法所建立的图模型皆为普通图文献中提出

，

的方法应用最邻近耦合图构造图结合向心率以及区

．

性以及它对该领域的贡献率是极为重要本文根据文

．

域位置因子来衡量词语的重要性然而基于图模型所

， R

献的来源来确定其权威性即

( d ) ．

依据中国计

paper-rank

提出的关键词抽取算法仅仅考虑了词与词之间的二元

( http: / /www． ccf． org． cn)

算机学会

给出的文献重要性

，，

共现关系忽略了文档本身所携带的社会属性因素这

，

分类信息分别选取

A、B、C

，

三类的文献为实验数据其

- ， -

就需要建立一个能全面揭示文档词词词之间的高阶

( d )

( 4)

．

对应的

值如式

所示

1，

2 /3， d

paper-rank

［9］

，

． Zhou

等

关系的模型如超图模型

已提出基于超图的

等人提出的方法其他研究人

员提出了基于超图的半监督关键词排序算法的

∈

，

Zhou

随机游走方法基于

( 4)

paper-rank( d_i)

{

1 /3， d

［10］

．

定义

．

来表征文献的实时性与被引次数近

构建函数

time-quote

本文提出一种基于加权超图随机游走的关键词提

，， ;

期所发表的文献实时性越强其值就越大文献的被引

，，

取算法将文献标题视为超边将标题中不同词项视为

，，

次数越多该文献对相关领域贡献越大其值相应也越

．

超点来构建了超图模型通过考虑文献自身所携带的

．

大具体函数如下

，，

社会信息来衡量文献自身的重要性如文献来源文献

( c － y_i) + 1

k + 1

－

．

被引次数和文献发表时间同时定义词项之间的关联

( d ) = e

( 5)

time-quote

，，

度共现度以及每对词项在特定标题中的共现距离等

，

分别代表当前时间与该文献的出版时间以年为

和

．

完成超图的超边和超点加权最后将随机游走的方法

，k ．

单位为被引次数

．

在超图上进行推广

最终计算超边权重如下

w( d ) = R

( d ) + ( 1 － ) R

( d ) ( 6)

paper-rank

time-quote

超边与超点的加权策略

［0，1］，，

λ 为值域在之间的平滑因子其值越大代表更

， d

具体地将某标题视为一个由不同的关键词

; ，，

注重文献来源相反其值越小更注重文献实时性与被

= { v ，v ，…，v }

，

所组成的词袋模型而这些标题的集合

．，

引次数根据 λ 的不同取值来调节超边加权进而选定

D = { d ，d ，…，d }

，

即为本文所定义的词汇超图且标

．

最优 λ 值实验中发现随着 λ 取值增大算法性能先提

T = d

…

d = { v ，v ，

∪

题中所有关键词集合为

∪

，

升后下降且当 λ

= 0. 7

，

时推荐精确率达到峰值因而设

…，v } ．

0. 7．

定 λ 值为

2． 1． 2

通过超点之间的共现度关联度以及在特定超边共

2． 1

加权超图模型构建

HG( V，E)

超点加权策略

， V ，E

表示普通超图其中为超点集合

设

，

． e

为超边集合超边实质上是超点集合的子集且∪

． d ，

现距离对超点在特定超边中加权对于超边给定超点

∈

= V．

v e ， e v．

当 ∈ 时称超边指向顶点一个普通超图可

v ，v ，v d ， co d ( v ，v )

∈ 它们在该超边的共现度如

与

－

H ， v e，H

以用指示矩阵来表示若 ∈

h( v，e) =

中的元素

( 7)

．

所示

式

－ dist_d( v_i，v_j)

1，

否则

h( v，e) = 0．

co d ( v ，v ) = n( d ) × e

( 7)

在中间隔的

－

WHG( V，E，w ( e) ，w ( v ) )

，

为加权超图其中

设

dist ( v ，v )

d_l

其中共现距离

即超点

与

w( e) : e

代表超边的权重

，w( v ) : v

代表超

→

．

单词个数

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

我是蒙帆打赏1.00元 3天前

资料：TS-14PFX-4 TS-16PFX-4 调音台说明书
21ic小能手打赏10.00元 3天前

资料：大疆M3508 无刷电机完整驱动程序
21ic小能手打赏10.00元 3天前

资料：智慧景区AI大模型智能安防应用方案
21ic小能手打赏5.00元 3天前

资料：数字政府AI大模型场景应用可行性研究报告
21ic小能手打赏5.00元 3天前

资料：数字县域智慧城市工程总承包（EPC）可行性研究报告Word(
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏210.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏210.00元 3天前

用户：xzxbybd
21ic下载打赏70.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：kk1957135547
21ic下载打赏15.00元 3天前

用户：w993263495

21ic下载打赏30.00元 3天前

用户：SkyEagle88
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏5.00元 3天前

用户：dong2223333
21ic下载打赏10.00元 3天前

用户：dxb3320
21ic下载打赏10.00元 3天前

用户：DXB193394
21ic下载打赏10.00元 3天前

用户：westup
21ic小能手打赏15.00元 3天前

资料：stm32的单片机带云台智能小车有图像识别
21ic小能手打赏20.00元 3天前

资料：科创大赛“料理人生”厨房智能机器人项目资料包
21ic小能手打赏8.00元 3天前

资料：久坐智能提醒坐垫项目申报书资料
21ic小能手打赏5.00元 3天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 3天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 3天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 3天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 3天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 3天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：zhengdai

基于加权超图随机游走的文献关键词提取算法

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页