推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python语言的中文文本处理研究

更新时间:2019-12-24 10:29:31 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python中文文本处理 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

随着计算机技术的普及,基于机器语言的文本处理方法开始应用到各个领域,如何结合统计方法和机器方法的优势并将其应用于文本自动处理自然成为国内外语料库语言学研究的重点。和国外相比,国内对中文文本处理领域的研究相对落后一些,因此基于机器语言的中文文本处理成为一项非常有意义的研究课题,特别是对于汉语编码以及词语切分问题都具有极其现实的意义。基于HSK动态作文语料库中,母语为英语的汉语学习者汉语等级水平考试作文语料及自建的中国大学生汉语作文语料库,针对汉语语料库加工问题进行探讨和研究。通过动宾搭配研究中的分词赋码、高频词提取、句法分析等主要环节,深入观察语料,发现相比汉语本族语者,母语为英语的汉语学习者显著较少使用动宾搭配,为下一步的研究提出展望。


部分文件列表

文件名 大小
基于Python语言的中文文本处理研究.pdf 2M

部分页面预览

(完整内容请下载后查看)
37  
3
Vol. 37 No. 3  
June. 2018  
卷 第  
南昌工程学院学报  
Journal of Nanchang Institute of Technology  
2018  
6
: 1674 - 0076( 2018) 03 - 0070 - 06  
文章编号  
Python  
于  
的中文文处理研究  
 
(
通大外国学院 江通  
226019)  
: , ,  
技术及 基于器语言处理域 如何方  
,  
的优势用于处理自然语料语言学研究的重点 内对中文文处  
, ,  
的研究相对后一基于器语言的中文文处理项非意义的研究汉  
语编词语切问题都具有其现意义 基于  
HSK  
文语料母语英语汉语汉语等  
。  
考试文语料的中学生汉语文语料汉语语料加工问题行探讨和研究 通过宾  
、 、 , , ,  
研究中的分词赋频词分析等主要环语料 发现汉语族语母语英语的  
汉语显著使宾搭下一的研究望  
: Python  
; ;  
语言 文文语料库  
关键词  
中图分类号  
: TP391. 1  
: A  
文献标识码  
Chinese text processing based on Python language  
WEN Zhen  
( School of Foreign languagesNantong UniversityNantong 226019China)  
Abstract: With the popularity of computer technologytext processing based on machine language are widely used in various  
fields. How to combine the advantages of statistical and machanical methods and apply them to the automatic processing of  
texts has naturally become the focus of corpus linguistic research at home and abroad. Compared with foreign countriesdo-  
mestic research in the field of Chinese text processing is lagging behind. ThereforeChinese text processing based on ma-  
chine language makes more sensesespecially for Chinese coding and word segmentation. All the examples are mainly from  
HSK test compositions written by English-spenking learaers of Chinese and Self-built Chinese compositions Corpus of native  
Chinese speakers. Through the key elements of segmentationhigh-frequency word extractionand syntactic analysis in the  
study of the Verb-Noun Collocationsthe in-depth observation of corpus reveals that Chinese learners whose native language  
is English are less likely to use Verb Object collocations than Chinese native speakers. And this paper proposed the re-  
+
search prospects of Chinese Verb + Object collocations.  
Key words: Python programming language; Chinese texts; corpus  
90  
。  
年代开始 自然成为研究中的重数据处世界主  
纪  
Python 、 。Python  
因其掌握出  
能  
流编程中  
。  
最常的 目前国外对文文的研究已经比较虽然国内对中文  
、  
时间国外 中文空格析层面差异使得国内在  
, , ,  
的发展识全趋势下 国内中文文的技已经逐渐原始的  
1]  
阅词入统计学中的进行词  
Python Python  
性以及国内使用  
进行中文文的现用  
HSK  
作  
基于  
级水平以及自学生主要料  
,  
过  
Python  
NLPIRJieba  
Urllib 3  
自然包对分别进行词  
的  
3  
介绍 自然包在研究中的用以高  
Python  
语  
、  
工的用性 种意义中文文的高性不仅能保证工的质量和  
: 2018 - 03 - 29  
收稿日期  
:
作者简介  
( 1996 - ) , 411626775@ qq. com.  
士生  
3
: Python  
基于 的中文文研究  
71  
通用性 也研究的广度  
1 Python  
的文处理背景  
11  
 
Python  
·
姆  
( Guido Van Rossum)  
1989 ,  
发设计的 是面向对象解释高  
2]  
编程的编程学会产困惑  
级计设计言  
多编程择  
Python  
3
因和在以下 面  
( 1)  
强  
Python  
, , ,  
语句开始 减少语句使同时  
Python  
, , ,  
支持于解释作用和意义值范围便发学  
;
阅读 设计使用其使单字使得其的代的  
Python  
JavaC /C + +  
(
使大括和一字  
) Py-  
效果 此  
的程设计开  
的程设计使码  
( 2)  
thon  
入性高  
Python  
3
Python  
因主要有  
因在于  
Python  
使的程员  
极大地发速度  
在减少时间同时也保证性能不会之  
Python  
降低 外一因在在  
, ,  
以及入  
Python  
。 、 。  
解释对源结果者 最后  
后  
Python  
、 、 、 、 、 ,  
对象模块 字 字封装 多态大特性 使得  
Python  
序易植  
3]  
频率  
Python  
Python  
C /C + +  
的程使用  
C /C + +  
的成使用性  
Python  
入  
制作模块 提供能  
JavaC /C + +  
于  
的代用能力使其在科学领  
4]  
、  
的发展如机项目  
( 3)  
体积虽极其大  
3]  
Python  
, ,  
高级态编程它  
说  
这些于  
LAB  
Python  
Python  
MAT-  
库  
Matplotlib  
多工有与  
Numpy ,  
爬虫的  
的  
提供科学计的  
BeautifulSoup,  
杂  
HTTP  
HTTP  
RequestsPyGame。  
体和发的模块  
的  
Python  
大部分免费用源行  
Java  
中的开  
C /C + +  
等其语  
, ,  
公司内部使用 源不对外个  
Jar Python  
之外  
Python  
助  
设计 再将于  
Python  
使用 以上固  
的重要地位  
12  
软件对比  
Ant. ConcTree Tagger  
国内研究如  
等一使广这些件在  
些功能上在一不能对的研究提供支持  
Python  
高级的程只  
要一条语句数据的问题 学的研究一条径  
( 1)  
能性和强  
使范围比较仅限专门域  
ligator CLAWS  
: BFSU Collocator  
; BFSU Col-  
析  
。 、 、  
这些件虽然成文以  
于类析  
,  
及分的工作 但这些繁琐使研究的大大降低 研究特定过  
, ,  
现文避免件之间不同数据处的  
问题  
( 2)  
统  
、  
设计主要基于层面 次  
Py-  
thon  
。  
不仅进行和统而且用不同模块面  
Py-  
5]  
thon  
Matplotlib  
生的数据进行图像  
自然的文之一  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载