推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于python的中文文本分类研究

更新时间:2020-02-06 16:14:32 大小:991K 上传用户:gsy幸运查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

伴随着大数据时代的到来,互联网包含了越来越多的各种格式的数据和信息,而这些信息中的大部分都是以text或者hypertext的格式出现的,那么如何有效的组织和管理这些大规模的文本数据和信息,并且能够精准地从中挖掘出有用的信息正是我们目前所面临的困难,所以基于机器学习的中文文本分类技术已经成为一项非常有意义的研究课题。

  本文选取网页新闻作为语料库,针对中文文本分类问题进行了深切的探讨和研究。本文首先介绍了文本分类领域的研究现状;接着对文本分类的相关技术进行了探索和研究,包括信息检索模型、文本的向量表示和中文文本分词的相关技术。在传统的TFIDF算法基础上,本文创新性地采用词频放大法弱化文本长度对特征项权重的影响;在处理文本高维稀疏性向量矩阵时引入哈希技巧,提高了整个分类过程的空间和时间效率。在此基础上,本文进一步介绍了各种分类算法,包括朴素Bayes算法、K近邻算法、随机森林算法以及支持向量机算法。

  最后本文通过Python软件编程完整实现了中文文本分类系统,将数据集其中的80%作为训练集,20%作为测试集,进行交叉验证,建立准确率、召回率和f1值一系列指标对各种分类算法性能进行评价,得出支持向量机算法的分类效果最好,其精确率、召回率和f1值都高达92%;K近邻分类算法分类效果最差,虽然平均精确率为75%,但是回召率和f1值分别只有19%和12%的结论,并且深入分析了导致分类效果的原因和相关的改进方法,同时对下一步文本研究工作提出了展望。

部分文件列表

文件名 大小
基于python的中文文本分类研究.pdf 991K

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载