推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python语言的中文分词技术的研究

更新时间:2019-12-21 09:42:48 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python数据可视化 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界符,然而中文比较复杂。一般来说对字、句子和段落的划分比较简单,但中文中词的划分没有明显的标志,所以对中文文本进行分词的难度较大。运用Python爬虫对网页数据进行抓取作为实验文本数据,使用python强大的分词库jieba对中文文本进行分词处理。对分词结果分别采用TF-IDF算法和TextRank算法进行提取关键词,实验结果明显优于基于词频的分词算法。最后采用词云的方式对关键词进行展现,使得分词结果一目了然。


部分文件列表

文件名 大小
基于Python语言的中文分词技术的研究.pdf 2M

部分页面预览

(完整内容请下载后查看)
第 52 卷 第 7 期  
2019 年 7 月  
通信技术  
Communications Technology  
Vol.52 No.7  
Jul. 2019  
文献引用格式:祝永志,荆静 . 基于 Python 语言的中文分词技术的研究 [J]. 通信技术,2019,52(07):  
1612-1619.  
ZHU Yong-zhi,JING Jing.Chinese Word Segmentation Technology based on Python Language[J].  
Communications Technology,2019,52(07):1612-1619.  
doi:10.3969/j.issn.1002-0802.2019.07.012  
基于 Python 语言的中文分词技术的研究 *  
祝永志,荆ꢀ 静  
(曲阜师范大学 信息科学与工程学院,山东 日照 276826)  
:Python 作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python  
在数据科学领域具有广泛的应用,比如 Python 爬虫、数据挖掘等等。将连续的字序列划分为具有  
一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界符,然而中文比较复杂。一  
般来说对字、句子和段落的划分比较简单,但中文中词的划分没有明显的标志,所以对中文文本  
进行分词的难度较大。运用 Python 爬虫对网页数据进行抓取作为实验文本数据,使用 python 强大  
的分词库 jieba 对中文文本进行分词处理。对分词结果分别采用 TF-IDF 算法和 TextRank 算法进行  
提取关键词,实验结果明显优于基于词频的分词算法。最后采用词云的方式对关键词进行展现,  
使得分词结果一目了然。  
关键词:python;文本分词;jieba;词云;数据可视化  
中图分类号:TP312  
文献标志码:A  
文章编号:1002-0802(2019)-07-1612-08  
Chinese Word Segmentation Technology based on Python Language  
ZHU Yong-zhi, JING Jing  
(School of Information Science and Engineering, Qufu Normal University, Rizhao Shandong 276826, China)  
Abstract: As an interpreted high-level programming language, Python has penetrated into popular fields  
such as big data and artificial intelligence. Python has a wide range of applications in data science, such as  
Python crawlers, data mining, etc. Word segmentation is the process of recombining consecutive subsequences  
into word sequences in accordance with certain specifications. In English, spaces are delimiters between words,  
but Chinese is fairly complicated. Generally speaking, the division of words, sentences and paragraphs is relatively  
simple, but the division of words in Chinese has no obvious signs, so it is more difficult to segment Chinese words.  
Python crawlers are used to crawl web page data as experimental text data. Python's powerful word segmentation  
library jieba is used for word segmentation of Chinese text. The TF-IDF algorithm and the TextRank algorithm are  
used to extract keywords for the word segmentation results. The experimental results are obviously better than the  
word frequency-based word segmentation algorithm. Finally, the word cloud is used to display the keywords,  
thus making the word segmentation results clear at a glance.  
Key words: Python; text segmentation; jieba; word cloud; data visualization  
*
收稿日期:2019-03-23;修回日期:2019-06-21  
Received date:2019-03-23;Revised date:2019-06-21  
基金项目:山东省自然科学基金项目(No.ZR2013FL015);山东省研究生教育创新资助计划(No.SDYY12060)  
Foundation Item:  
Natural Science Foundation of Shandong Province(No.ZR2013FL015); Shandong Postgraduate Education Innovation Subsidy  
Scheme(No.SDYY12060)  
·1612·  
第 52 卷  
祝永志,荆 静:基于 Python 语言的中文分词技术的研究  
第 7 期  
以应用于学计算、数据分析等多个领域 [3],对这些  
库的熟练使用会使开发过程变得更简便和高效。标  
准库包含的功能有很多,比如文本处理和操作系统  
功能调用等。  
0 引 言  
Python 是当今最热门的编程语言之一,仅次于  
Java 语言、C 语言。国内的知名互联网企业也有很  
多使用 python 语言搭建的,比如网易、豆瓣等。由  
于很多公司使用 Python 进行开发和其他工作,导致  
Python 招聘相关工作岗位的范围很广,涉及到从后  
台维护到前端开发。Python 适用于数据科学方面,  
比如数据采集、数据分析和数据可视化等,社会发  
展的需求也是 Python 热门的原因之一。  
1.2 jieba  
结巴分词(Jieba)作为一个强大的分词库,它  
的开发者通过大量的训练后,向其录入了有两万多  
条词组成了基本的库,不仅如此,jieba 的实现原理  
也比较完善,设计的算法有基于前缀词典的有向无  
环图、动态规划、HMM 模型等 [4]。jieba 分词支持  
三种分词模式:  
用高级语言编程可以大大提高生产力的想法  
并不新鲜,当今社会各个领域都离不开数据的支  
持,获取和充分利用数据是一个巨大的问题,而  
Python 就是一门可以解决这种问题的高级编程语  
Python 爬虫是众多数据来源渠道中重要的一条,  
运用它可以提供优质和价值丰富的数据集 [1]。除了  
获取数据,Python 在后续的数据处理等过程中也展  
现出了巨大的优势,它的应用范围十分广泛,几乎  
覆盖了整个程序设计的领域 [2]。在本文中首先运用  
Python 爬虫爬取新闻网页数据,为后续实验提供文  
本数据,然后对文本进行切分,对切分结果进行  
去除停用词处理后对分词进行了加权处理筛选出  
关键词,在加权时采用了 TF-IDF 算法和 TextRank  
算法对分词的重要性进行计算,根据加权结果提取  
出关键词,最后运用 WordCloud 库采用词云的方式  
对关键词进行展现。数据的获取和分析处理过程都  
程序化,不仅可以节省时间,使得阅读过程更加方  
便快捷,而且可以迅速地从中文文本中提取到高价  
值的信息。  
(1)精确模式,此模式试图以最高精度来对  
句子进行划分,适用于文本分析;  
(2)全模式,此模式可以扫描出句中全部可  
成词的词语,并且速度很快,但它并不可以解决歧  
义问题;  
(3)搜索引擎模式,此模式基于精确模式  
对长词在进行切分,可以将此模式用于搜索引擎  
分词 [5]。  
Jieba 分词的 jieba.cut() 方法有三个参数:字符  
串,cut_all,HMM(Hidden Markov Model隐马尔  
可夫模型)参数。其中字符串是待分词的实验文  
本,第二个参数 cut_all=True 时使用全模式,当指  
定 cut_all=False 时为精确模式。图 1 展示了不同模  
式的使用方法和分词结果。  
1 Python 简介  
1.1 Python  
Python 作为当今最热门的编程语言之一,它的  
应用场景很多,比如科学计算,软件的开发与维护  
等等,Python 已经是当前热门领域中不可或缺的编  
程语言,比如云计算、网络爬虫、人工智能等等。  
在当今热门的语言中,Python 的优势主要体现在以  
下两点:  
图 1 jieba 分词模式  
2 Python 爬虫  
Python 虫就是用 Python 编程实现的网络爬  
Python 拥有很多可用于爬虫的第三方包和框架,  
可以轻松地实现爬虫功能 [6]。用 Python 来写爬虫  
程序不仅爬取速度快,处理各种爬虫问题也很方  
便。Python 爬虫的用处有很多,比如各种数据聚  
合的网站像搜索引擎和信息对比的网站等都运用  
(1)易于学习,开源,高级语言,可移植性,  
可解释性,面向对象,可扩展性,丰富的库和规范  
的代码。  
(2)具有一个强大的标准库和许多功能丰富  
的第三方库,这些使得开发过程更简单,这些库可  
·1613·  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载