推荐星级：

基于Python的《水浒传》中人物分析

更新时间：2019-12-20 22:46:42 大小：395K 上传用户：songhuahua 查看TA发布的资源 标签：python jieba库文本挖掘 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

随着大数据技术的应用领域不断扩大,信息量也在日益膨胀,而有价值的信息是有限的,利用文本挖掘技术可以高效地获取长文本文献中的有价值信息,实现热点追踪。作为当前最流行的编程语言,Python能够快速而准确地进行词频统计、获取高频词,从而获得文献的主题思想。

部分文件列表

文件名	大小
基于Python的《水浒传》中人物分析.pdf	395K

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

安全模型、算法与编程

基于 Python 的《水浒传》中人物分析

◆杨旭东

（重庆安全技术职业学院网络与信息安全系重庆 404020）

摘要：随着大数据技术的应用领域不断扩大，信息量也在日益膨胀，而有价值的信息是有限的，利用文本挖掘技术可以高效地获取长

文本文献中的有价值信息，实现热点追踪。作为当前最流行的编程语言，Python能够快速而准确地进行词频统计、获取高频词，从而

获得文献的主题思想。

关键词：Python语言；jieba库；文本挖掘

可维护性。

引言

伴随着计算机技术的发展，布朗语料库作为世界上第一个机

（7）支持中文：Python3.0解释器采用UTF-8编码表达所有

字符信息。UTF-8编码可以表达英文、中文、韩文、法文等各类

语言，因此，Python程序在处理中文时更加灵活且高效。

（8）模式多样：尽管Python3.0解释器内部采用面向对象方

式实现，但Python语法层面却同时支持面向过程和面向对象两种

编程方式，从而为使用者提供了灵活的编程模式。

（9）类库丰富：Python 解释器提供了几百个内置类和函数

库，此外，世界各地程序员通过开源社区贡献了十几万个第三方

函数库，几乎覆盖计算机技术的各个领域，编写Python程序可以

大量利用已有的内置或第三方代码，具有良好的编程生态。

1.2与国内专用语料库软件的对比

读语料库于 1960 年诞生，语料库语言学在近些年得到迅速的发

展和普及，并逐步趋于成熟。语料库语言学的研究对象是真实语

言使用中的语言事实，借助计算机技术和统计学方法，对语言数

据进行定性定量的描写和概括，从而全方位、多角度地揭示语言

中的规律。大数据技术已经融入当今世界的各行各业，人工智能

技术也得到了空前发展。自然语言处理( Natural Language

Processing，NLP) 属于人工智能的一部分，其技术的发展将使人

与计算机之间的交流更加有效和便捷，也将促进以全新的理念和

技术进行研究。

由于技术原因，使得我国对中文文本处理的研究起步较晚。

英文单词是以空格作为分词标志，与中文的分词标志、语义分析

存在较大差异，英文语料库语言学的技术不能被有效的借鉴，这

也是国内在该领域落后的一个原因。但是随着互联网技术的普

及，在知识全球化的今天，中文文本分词技术已经日趋成熟，取

得了很大的进步，已从最初的借助词典查阅方式，到如今利用语

言模型对文本进行分词。

Ant Conc、Tree Tagger作为国内语料库研究使用较为广泛的

软件，由于这两个软件在设计时考虑不周，以至于存在一些功能

上的缺陷，不能对中文文本的研究提供精确有效的支持。Python

作为一种被广泛使用的高级通用脚本编程语言，拥有丰富的第三

方库，这为语料库语言学的研究提供了一种全新的选择。

（1）功能性和灵活性强

大部分语料库软件具有自己专门的应用范围和领域：BFSU

Colligator应用于类联接分析领域；CLAW S应用于词性赋码领域；

BFSU Collocator应用于搭配分析领域。以上软件在自己各自领域

功能强大，能完成文本的收集、整理、标注以及分析等特定功能，

但是编程和使用过程繁琐，大大影响研究效率。而Python语言借

助于第三方库，只需几行代码就能实现文本的分词和统计，避免

了因使用不同软件而造成的编程语言切换和数据不兼容的问题。

（2）全面系统

Python 语言的文本处理背景

1.1Python语言概述

Python语言的设计者是吉多· 范罗苏姆(GuidoVanRossum)，

第一个版本的发行时间是 1990 年，它是一种计算机高级程序设

计语言、面向对象解释型。在上百种流行的编程语言中，Python

语言具有以下多方面的优势：

（1）语法简洁：实现相同功能，Python 语言的代码行数仅

相当于其它语言的1/10~1/15。

（2）与平台无关：作为脚本语言，Python 程序可以在任何

安装解释器的计算机环境中执行，用该语言编写的程序可以不经

过修改实现跨平台运行。

过去的语料库软件在设计时只考虑分词、分词的原则，很少

延伸至整句、整篇的层次，存在断章取义的情况。Python语言不

仅可用于中文文本的分词、词语过滤、自增语料库，还可进行词

频统计、句法分析、篇章分析。文本分析结果可通过Python语言

的第三方Matplotlib 库进行数据可视化处理，将分析结果以图表

的形式呈现，直观明了。正则表达式检索在Python语言中也得到

了很好的利用。

（3）粘性扩展：Python 具有优异的扩展性，体现在它可以

集成 C、C++、Java 等语言编写的代码，通过接口和函数库等方

式将它们“粘起来”（整合在一起）。此外，Python语言本身提供

了良好的语法和执行扩展接口，能够整合各类程序代码。

（4）开源理念：对于高级程序员，Python 语言开源的解释

器和函数库具有强大的吸引力，更重要的，Python语言倡导的开

源软件理念为该语言的发展奠定了坚实的群众基础。

（5）通用灵活：Python 语言是一个通用的编程语言，可用

于编写各领域的应用程序，这为该语言提供了广阔的应用空间。

从科学计算、数据处理到人工智能、机器人，Python语言都能够

发挥重要作用。

（3）支持多种语言

国外的语料库语言学研究也在突飞猛进，发展迅速，相关语

料库软件随之而面世。然而其它国家的语料库软件都是基于本土

语言设计开发的，不能对中文文本进行处理，而Python语言下的

第三方库支持中文文本的处理，有效的解决了中文文本的研究问

题。

Python 语言在中文文本中的应用

（6）强制可读：Python 语言通过强制缩进来体现语句间的

逻辑关系，显著提高了程序的可读性，进而增加了Python程序的

2.1数据源和方法

以网上下载的小说水浒传为数据源，来进行文本分析，以统

‖42‖

安全模型、算法与编程

计出场最多的前十位人物。首先要将文本保存为 txt 格式，编码

选择为“UTF-8”，要获取文本中的高频词，需对文本进行分词、

词频统计，然后创建一个排除词汇库，在输出结果中排除这个词

汇库中的内容，对统计结果进行优化，最终得到的结果能直观体

现各人物的地位。编译器选择 Python3.7 版本，在

https://www.python.org/downloads/网站上可以直接下载，并按提示

完成安装，安装完成后需设置环境变量。

words=jieba.lcut(txt)

counts={}

forwordinwords:

iflen(word)==1:

continue

else:

counts[word]=counts.get(word,0)+1

forwordinexcludes:

del(counts[word])

items=list(counts.items())

2.2jieba分词和词频统计

对于一段英文文本，如果希望提取其中的单词，只需要使用

字符串处理的split()方法即可。然而，对于一段中文文本，例如，

“中国是一个伟大的国家”，获得其中的单词（不是字符）十分

困难，因为英文文本可以通过空格或标点符号分隔，而中文单词

之间缺少分隔符，这是中文及类似语言独有的“分词”问题。

jieba 是 Python 中一个重要的第三方中文分词函数库，由于

其不是Python安装包自带的，使用时需要通过pip指令安装：pip

installjieba，在程序中用import命令来导入。jieba库的分词原理

是利用一个中文词库，将待分词的内容与分词词库进行比对，通

过图结构和动态规划方法找到最大概率的词组。除了分词，jieba

还提供增加自定义中文单词的功能。

items.sort(key=lambdax:x[1],reverse=True)

foriinrange(10):

word,count=items[i]

print("{0:<10}{1:>5}".format(word,count))

上述代码是输出出场最多的前 10 位人物，如需对更多的人

物进行分析，只需修改代码“foriinrange(10)”中的数字10即可。

统计结果如表2所示。

表2 人物词频统计表

序号

姓名

宋江

词频

2372

1082

992

625

545

513

326

315

304

293

jieba库支持3种分词模式：精确模式，将句子最精确地切开，

适合文本分析；全模式，把句子中所有可以成词的词语都扫描出

来，速度非常快，但是不能消除歧义；搜索引擎模式，在精确模

式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎

分词。

李逵

武松

吴用

林冲

表1 jieba库常用的分词函数

卢俊义

柴进

函数

功能描述

jieba.cut(s)

精确模式，返回一个可迭代的数据类型

呼延灼

鲁智深

戴宗

jieba.cut(s,cut_all=True) 全模式，输出文本s中所有可能的单词

搜索引擎模式，适合搜索引擎建立索引的

jieba.cut_for_search(s)

分词结果

从表2可以看出，小说《水浒传》中宋江的出场次数最多，

其次是李逵和武松，这和我们在电视剧中看到的剧情是相吻合

的，利用Python的jieba库可以帮助文学家对小说文本进行全方

位地分析和研究。

jieba.lcut(s)

精确模式，返回一个列表类型

全模式，返回一个列表类型

搜索引擎模式，返回一个列表类型

向分词词典中增加新词w

jieba.lcut(s,cut_all=True)

jieba.lcut_for_search(s)

jieba.add_word(w)

结语

基于Python语言强大的库功能，利用其第三方jieba库对中

2.3《水浒传》中人物出场统计

《水浒传》是中国古典四大名著之一，作者是施耐庵。该书

是第一部以描写古代农民起义为题材的长篇小说，它在塑造人物

形象方面积累了丰富的艺术经验。作品能紧紧扣住人物的不同出

身经历，通过人物自己的语言和行动去表现其性格。作品同时也

能够很准确地把握住人物性格与身份、社会地位、生活阅历之间

的相互作用。

文文本进行分词、词频统计，准确快捷。经过词频统计，可以获

得文本的主旨思想。Python的源代码编写简单，易于维护，从而

有利于在使用过程中对代码进行修改和优化，剔除冗余的数据。

jieba库为计算机技术在自然语言处理分析中提供了无限可能。

《水浒传》是一本鸿篇巨著，里面出现了108位各具特色的

主要人物。每次读这本经典作品都会想一个问题，全书这些人物

谁出场最多呢？一起来用Python解决这个问题。

人物出场统计涉及对词汇的统计，中文文章需要分词才能进

行词频统计，分词统计需要用到第三方库jieba。先将《水浒传》

文本保存为“水浒传.txt”，编码选择为“UTF-8”。Python语言实

现代码如下：

参考文献：

[1]王弘博，孙传庆.M arkSummerfield.Python3程序开发指

南[M ]. 2版.人民邮电出版社，2015.

[2]李建文.计算机字符编码—Unicode 与 W indows[M ].科

学出版社，2016.

[3]韩菲,金磊,戴文浩.基于 Python 的实时数据库设计[J].仪

器仪表用户，2017.

importjieba

[4]王丽杰.汉语语义依存分析研究[D],哈尔滨:哈尔滨工业

大学，2010．

excludes={"两个","一个","只见","如何","那里","哥哥","军马

","头领","说道","众人","这里","兄弟","出来","小人"}

txt=open("水浒传.txt","r",encoding='utf-8').read()

[5]刘旭.基于Python自然语言处理工具包在语料库研究中

的应用[J].昆明冶金高等专科学校学报，2015.

‖43‖

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

基于Python的《水浒传》中人物分析

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页