推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的改进关键词提取算法的实现

更新时间:2019-12-21 08:54:47 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

基    金】 国家社会科学基金项目(18BTQ042) 延安大学继续教育教学改革研究专项(YDJY2016-11)


部分文件列表

文件名 大小
基于Python的改进关键词提取算法的实现.pdf 2M

部分页面预览

(完整内容请下载后查看)
2713期  
Vol.27 No.13  
电子设计工程  
Electronic Design Engineering  
20197月  
Jul. 2019  
基于 Python 的改进关键词提取算法的实现  
牛永洁  
安大学 数学与计算机学院西 延安 716000)  
摘要关键词提取是自然语言研究领域的基础和关键点很多领域都有广泛的应用。以本校图  
书馆提供的 8045 色中闻为源数据先对数据进行数据清理除其中的噪声数据然  
后对每篇新闻进行数据结构解析解析的基础上计算了词语的 TFIDF 权重位置权重性权  
长权重和词跨度权重合考虑这些权重计算出词语的综合权重综合权重最大的前 8 个  
词语作为新闻的关键词。从准确度回率及 F1 3 个指标对改进算法典的 TFIDF 算法和专  
家标注进行对比现改进算法在 3 个指标上均优于经典的 TFIDF 算法专家标注比较接近值  
得推广应用。  
关键词TFIDF跨度位置  
中图分类号TP311.1  
文献标识码A  
文章编号1674-6236201913-0011-05  
Implementation of improved keyword extraction algorithm based on Python  
NIU Yongꢀjie  
College of Mathematics & Computer ScienceYan'an UniversityYan'an 716000China)  
Abstract: Keyword extraction is the foundation and key point in the field of natural language research  
and has been widely used in many fields. Based on the data of 8045 pieces of "Red China" news provided  
by our university librarythis paper firstly cleans up the dataremoves the noise dataand then analyzes  
the data structure of each news. On the basis of the analysisit calculates the TFIDF weight of wordsthe  
weight of word positionthe weight of part of speechthe weight of word length and the span of words.  
Weightthese weights are considered to calculate the comprehensive weight of wordsand the first eight  
words with the largest comprehensive weight are used as the keywords of news. Comparing the improved  
algorithmthe classical TFIDF algorithm and the expert annotation from the three indexes of accuracyrecall  
rate and F1 valueit is found that the improved algorithm is superior to the classical TFIDF algorithm in  
the three indexesand is close to the expert annotationso it is worth popularizing and applying.  
Key words: TFIDFpart of speechword spanword lengthword position  
关键词的提取是自然语言处理中的基础与核心  
督性和非监督性两大类。通过训练数据构建学习模  
技术信息检索本分类本聚类息匹配、 型断词语是否归属于关键词类别于典型的有  
话题跟踪动摘要机对话符串相似性衡量  
等领域有广泛的应用[1-5]。但是针对不同的领域关  
键词的提取要求千差万别前在不同的领域大多  
指导学习方法。有指导学习需要事先标注高质量的  
训练数据工预处理的代价较高是效果比较  
[6]。非监督学习因为无需对数据进行训练现快  
依赖人工标注的方法进行着数据量的日益激增, 捷需要文本自身的信息就能进行等优点被广泛  
人工标注的方法已经不能胜任以依靠计算机自  
动提取关键词显得十分重要。  
采用监督关键词抽取方法可归纳为 3 : 于  
TFIDF 计特征的关键词抽取于主题模型的关  
键词抽取和基于词图模型的关键词抽取方法。这些  
关键词自动提取按照是否进行监督学习分为监  
方法都有自己的优缺点[7-8]  
收稿日期2018-10-09  
稿件编号201810018  
基金项目国家社会科学基金项18BTQ042安大学继续教育教学改革研究专YDJY2016-11)  
作者简介牛永1977南许昌人教授。研究方向据挖掘数据。  
- 11 -  
电子设计工201913期  
文中以 TFIDF 法为基础合考虑了文章中  
加权重段往往是对全文的总结此也需要对出  
现在末段的词语增加权重。每段内容的首句往往是  
本段内容的纲领以出现在每段第一句中的词语  
的权重也应该适当重视。词语位置的权重设置如表  
1 所示W _loc 表示词位置权重。  
词语的位置长度跨度等因素。在数据  
清洗的基础上Python 言建立了文章的面向  
对象的数据结构后计算了词语的 TFIDF 权重词  
性权重位置权重跨度权重长度权重这  
些权重加权得到总权重得权重值最大的 8 词  
作为文章的权重。  
表1 语位置权重设置  
出现位置  
标题  
权重名称  
W_title  
权重设置  
6
5
3
2
1
1 相关概念  
首段  
W_fseg  
末段  
W_eseg  
设定现在有一个新闻集合 D合中包含 N 篇  
新闻篇新闻报道称之为文章 Article闻的标题  
称为文章的标题 Title闻的正文称为文章的内容  
Content容使用换行回车或者符号<br/>分割为段  
Segment落中包含句子 Sentence子使用符号  
……行分割个句子包含  
词语 Word词系统使用北京理工大学的大数据搜  
索与挖掘实验室的 NLPIR2016 系统进行分词。其他  
相关的概念包含 TFIDF 性权重位置权  
跨度权重长度权重。  
首句  
W_fsen  
其他  
W_locother  
1.3 词性权重  
汉语词性可以分为可分为实词和虚词。实词包  
: 名词容词词和代词。虚词包  
: 副词声词。关键词词  
性分布一般是名词或名词性短语为主。其次是动词  
研究发现后是数词词和其他修饰词等[11]。考  
虑词性特征可以有效避免传统采用语言学方法的缺  
[12-13]性的权重设置如表 2 所示W _depart 表  
示词性权重。  
1.1 TFIDF的概念  
TFIDF 算 法 处 理 的 对 象 是 文 章 的 Content 部  
[9-10]中每个词语 Word 的权重由1算。  
表2 性权重设置  
词性  
名词性  
权重名称  
W_posn  
权重设置  
Wtf (i)= tfi*idfi  
1)  
6
4
3
2
1
Wtf (i) 代表第 i 个词语使用 TFIDF 方法的权重tfi  
动词性  
W_posv  
表示该词的词频=词在 Content 出现的次  
/Content 中词语总数idfi 称为逆文档频率算方  
形容词词  
数词词  
其他  
W_posa  
W_posm  
W_posother  
法采用2算。  
N + 1  
1.4 词长权重  
idfi = log(  
+ 1)  
2)  
dfi + 1  
经过研究发现个文章的关键词的词长一般  
大于 2以可以将词长小于 2 词语过滤掉键  
词词长越长包含的信息越大是关键词词长一般  
不超过 6此也可以将词长大于 6 词语过滤掉。  
由于关键词词长越长包含的信息越大以使用式  
3为词长的权重W _len 表示词长权重。  
词长  
2N 示文档总数dfi 示文档中出  
现词语 i 的文档数了避免 dfi 0 和除 0 的问题,  
idfi 使用了变形的形式。  
TFIDF 计算表明如果一个词语在一个内容  
Content 中出现的次数越多但是在集合 D 中包含该词  
语的其他文章数量越少词语成为文章关键词的  
权重越大中采用 W_tfidf 表示词语的权重。  
1.2 词位置权重  
W_len =  
3)  
词长 + 4  
1.5 词跨度  
一个词的跨段落情况说明这个词是描述局部的  
还是表达全文的。跨段数越多明该词越重要全  
局性越强。显然部关键词不是我们需要提取的  
目标而在传统 TFIDF 的算法中部关键词往往  
会因为其高频优势成为整个文档的关键词低了  
根据文献[11]中的思想章的标题 Title 一般会  
尽可能包含文章的中心思想以出现在标题中的  
词语成为关键词的概率最大外一个文章的第一  
段往往是全文的初步概括能最大限度的体现文  
章的主旨以对出现在第一段中的词语也需要增  
- 12 -  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载