推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的藏文不自由虚词校对算法研究与实现

更新时间:2019-12-24 05:07:00 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

藏文虚词校对是藏文自然语言处理的基础问题。将西藏地区口耳相传的藏文不自由虚词添置口诀转化为藏文不自由虚词识别及校对规则。在基于规则和词库匹配的基础上,使用Python语言实现藏文不自由虚词校对算法,细化了校对过程。同时讨论了藏文不自由虚词校对算法实现过程中的特殊情况,供读者借鉴。


部分文件列表

文件名 大小
基于Python的藏文不自由虚词校对算法研究与实现.pdf 2M

部分页面预览

(完整内容请下载后查看)
计算机时代 2019 年 第 9期  
·13·  
DOI:10.16644/j.cnki.cn33-1094/tp.2019.09.004  
Python藏文不自由虚词校对算法研究与实现  
索南尖措,陈家威  
(西藏大学信息科学技术学院,西藏 拉萨 850000)  
要:藏文虚词校对是藏文自然语言处理的基础问题。将西藏地区口耳相传的藏文不自由虚词添置口诀转化为藏文  
不自由虚词识别及校对规则。在基于规则和词库匹配的基础上使Python语言实现藏文不自由虚词校对算法化了  
校对过程。同时讨论了藏文不自由虚词校对算法实现过程中的特殊情况读者借鉴。  
关键词:藏文自然语言处理;藏文不自由虚词;校对算法;Python  
中图分类号TP301.6  
文献标志码A  
文章编号1006-8228(2019)09-13-03  
Research and implementation of Tibetan function word proofreading algorithm using  
Python  
Suonan Jiancuo, Chen Jiawei  
School of Information Science and Technology, Tibet University, Lhasa, Tibet 850000, China)  
AbstractThe proofreading of Tibetan function words is the basic problem of Tibetan natural language processing. In this paper,  
the Tibetan function word acquisition recipe handed down orally in Tibet is transformed into the Tibetan function word recognition  
and proofreading rules. On the basis of rules and lexicon matching, the Tibetan non-free function word proofreading algorithm is  
implemented in Python language, and the proofreading process is refined. At the same time, the special situation in the process of  
realizing the Tibetan function word proofreading algorithm is discussed, which can be used for reference by readers.  
Key wordsTibetan natural language processingTibetan function wordsproofreading algorithmPython  
虚词添置校对算法研究与实文基础上进行研究  
0 引言  
和撰写的。  
本文研究的是藏文文本自动校对中的藏文不自  
由虚词校对。目前藏文不自由虚词校对研究方面的  
文献较少毛措提出了藏文属格助词的识别和自动  
检错算法[1]海民族大学藏文信息处理与软件研究  
所的公保才让和安见才让提出了一种基于规则和藏  
文语法相结合的校对算法[2]海民族大学的卓玛  
见才让主要研究藏文文本中大量藏文不自由  
虚词的识别算法[3]西藏大学的拉巴顿珠珠和赵栋  
材用规则和统计相结合的方法,建立了较为全面的虚  
词知识库和规则库给出切分用虚词分块算法[4]。  
他们发表的文献和所做的研究对后人做藏文不自由  
虚词校对研究有着极大的贡献。  
1 藏文不自由虚词添置口诀介绍  
经过了解族学生从小学时期就开始背诵藏文  
不自由虚词校对口诀于检查藏文不自由虚词使用  
是否正确。在藏文中自由虚词分为终结词格  
助词格助词格助词合词集词述词、  
筲፼་།  
指人后缀态助词和不自由虚( )下来将  
以终结词为例对口诀进行介绍和解释。  
ག་ ፼་ ད་ 佼་ 孼་ 捼་  
荲 ꢁ ལ་ ས།  
终结词:  
口诀为:  
ག་፼་ད་佼་孼་捼་荲།  
ꢁ་ལ་ས་ཏ་鮳ꢁ་孼ꢂ་ꢃ།  
本文是在参考公保才让和安见才让发表文  
收稿日期2019-03-27  
作者简介索南尖1977-海海南藏族自治州人教授要研究方向语自然语言处理。  
通讯作者陈家1997-东济宁人西藏大学信息科学技术学院本科在读要研究方向语自然语言处理。  
Computer Era No. 9 2019  
·14·  
ꢄགས་歼ག་羳་ꢂད་᝼ས་ꢆ፼་ꢇ།  
ག筲佼་讣捼་捼፼་捼䍺荲་ꢈས་捼䍴佼་ꢉꢁ།  
ག་ ፼་ ད་ 佼་ 孼་ 捼་ 荲་ ꢁ་ ལ་ ས་  
᝼ས་᝼荲་᝼་佼་᝼ག་  
些不自由虚词时读不自由虚词前一  
音节字是否在词库中存在不自由虚词使用正  
不存在不自由虚词使用错误。  
藏文终结词“  
们用于句末时为不自由虚词示一句话的结束。用  
ག་ད佼་ ལ་ꢊས་  
10它  
荲ས་ ꢁ་  
和 这两个不自由虚词具有黏着性前一  
音节字之间不会用分隔符分开此极难判断是不自  
லགས་ དཔꢁ་ 荲ས་  
于句中时则表示为实词。“ ”。  
由虚词还是后加字或再后加字。如在  
ꢁ་  
中ꢀ  
鮐孼ས་ 鮐ꢁ་  
和 中ꢀ  
以上四句口诀的意思为结词的使用与终结词  
前一音节字的后加字相对应就是当前一音节字的  
和 是再后加字和后加 是在  
ག་  
ག་  
፼་  
荲ས་ ꢁ་  
后加字为 时结词使用 一音节字的后加字为  
和 是不自由虚词ꢀ  
解决办法立词库遇到音节字后加字位置  
ས་ ꢁ་  
፼་  
结词使用 此类推。  
或再后加字位置为 或 的词时断该词是否在词库  
荲ས་ ꢁ་ 荲ས་  
其他不同种类的不自由虚词口诀也与终结词相  
述的内容都是不自由虚词的使用受前一音节字  
后加字的限制。为了使所有的口诀及其解释令读者  
一目了然加直观的了解藏文不自由虚词添置规  
们将其转化成图1示。  
存在则 或 是不自由虚词不存在则  
ꢁ་  
或 是不自由虚词。由于所需建立的词库的庞大且  
个人能力有限此在本算法中后加字位置或再  
ས་ ꢁ་  
后加字位置为 或 的词标出工去判断。  
པ་  
ག佼་ ꢌ佼་ ꢆ佼་ ཡ佼་  
于  
指人后缀 和 态助词:  
པ་ 孼་ ག佼་ ꢌ佼་ ꢆ佼་ ཡ佼་  
指人后缀 和 和时态助词  
用法灵活没  
有固定的规则可以判断它们前还未了解到有效的  
识别及计算算法此在本算法中暂时先不判断它们  
使用是否正确使用绿色将其标注人工去判断  
使用是否正确。  
鍲ག་ 鍲፼་  
10实词和不自由虚词的兼类情况“ ꢀ ꢀ  
ལ捼་ 孼捼་ 佼捼་ 譴་ 䝴་ ፼捼་ ཡ་ 筲፼་  
ꢀ ꢀ ꢀꢀꢀ ꢀꢀ 可能是实词也可能是不自  
由虚词果不作处理就会出现错误。  
图1 文不自由虚词添置规则图  
解决办法集以10音节字为实词中一部分  
鍲ག་ 鍲፼་ ལ捼་ 孼捼་ 佼捼་ 譴་  
的情况成一个词库“ ꢀ ꢀ ꢀ ꢀ ꢀ  
2 特殊情况  
䝴་ ፼捼་ ཡ་ 筲፼་  
ꢀ ꢀ 断前一音节字+不自由虚词和不自  
在藏文不自由虚词使用过程中部分的虚词使  
用是按照图 1 所示进行使用还存在以下 6 种特殊  
情况。  
由虚词+后一音节字是否在词库中不存在证明  
为不自由虚词证明为不自由虚词判断是否符合算  
法规则。  
ད་  
再后加字 有时候会省略藏文音节字中ꢀ  
ད་  
如音节字 既是自由不自由虚词是不自由  
ꢁ་ ལ་ ས་ ད་  
后加字 、后面的再后加字 一般情况下会省略此  
虚词此类一个音节字既有自由不自由虚词的用法也  
有不自由虚词的用法。  
ꢋꢁ་᝼፼་  
时若按照规则进行校对会出现错误。如  
ꢀ若  
᝼፼་  
按照上文提到的规则进行校对自由虚词 应该为  
解决办法前没有较好的解决办法能先搜  
ꢁ་  
ད་  
使用错误为后加字为 以不自由虚词应使用  
集音节字 作为自由不自由虚词时组成的词组建  
筲፼་  
ꢋꢁ་  
ད་  
ད་  
是由于 省略了再后加字 以不应该按照后  
词库文章中遇到 时判断 +后一音节字是否在  
词库中说明是自由不自由虚词不  
说明是不自由虚词按照不自由虚词的规则  
去判断。  
ꢁ་  
加字为 的规则去校对。按照再后加字为 的规则去  
᝼፼་  
校对自由虚词 使用正确。  
佼་ ꢁ་ ལ་  
ད་  
ཏ་㽴་ꢆ་ꢆས་ཏ捼་ꢆ፼་ཏ་པ་ꢆ佼་᝼፼་  
解决办法集后加字 、、后面的再后加字 省  
筲ས་ 鍲ས་  
ས་  
鍲ས་  
本在后加字 应该使用 由于  
略的词语成一个词库“  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载