推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

商品自动分类的贝叶斯方法及Python实现

更新时间:2019-12-21 10:25:37 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

贝叶斯作为一种高效、易训练的分类方法得到广泛应用,在文本分类领域中具有较好的分类效果。本文将针对商品自动分类问题,应用多项式贝叶斯模型,研究电子商务网站新商品的自动分类方法。在给定50万条商品数据集上进行分类测试,并应用Python语言及相关程序库实现具体的分类过程。经过5次交叉测试,新商品自动分类效果较好,分类精度达73.1%。


部分文件列表

文件名 大小
商品自动分类的贝叶斯方法及Python实现.pdf 1M

部分页面预览

(完整内容请下载后查看)
Jun. 2019  
20196月  
安庆师范大学学报(自然科学版)  
Journal of Аnqing Normal University(Natural Science Edition)  
Vol.25 No.2  
252期  
商品自动分类的贝叶斯方法Python实现  
吕 彦树林*  
(安庆师范大学 计算机与信息学院徽 安庆 246133)  
贝叶斯作为一种高效训练的分类方法得到广泛应用文本分类领域中具有较好的分类效果。本文将  
针对商品自动分类问题用多项式贝叶斯模型究电子商务网站新商品的自动分类方法。在给50万条商品数据  
集上进行分类测试Python语言及相关程序库实现具体的分类过程。经5次交叉测试商品自动分类效果较  
类精度73.1%。  
关键词机器学习品自动分类项式贝叶斯分类模型Python  
图分类号TP391 文献标识码А  
DOI10.13757/j.cnki.cn34-1328/n.2019.02.015  
文章编号1007-4260(2019)-02-0066-04  
Automated Classification Method of Commodity by Naive Bayes and Imple-  
mentation with Python  
LV Yan, CHENG Shulin  
(School of Computer and Information, Аnqing Normal University, Аnqing 246133, China)  
Abstract: Аs an effective and easily trained classification method, the naive Bayesian model is one of the commonly and  
widely used model algorithm for machine learning, which has good classification effectiveness. Аs for the typical question of  
automated classification of commodities, the new commoditys classification model is studied by applying polynomial Bayes-  
ian method. The classification test is carried out on a dataset with 500 000 commodity data, and the specific classification pro-  
cess is implemented by using Python language. Аfter 5-fold testing, the experimental results manifest well and reach the pre-  
diction precision of 73.1%.  
Key words: machine learning; automated classification of commodities; polynomial Bayesian method; Python.  
随着 Web2.0的深入应用户为互联网贡献了大量的文本信息现文本自动分类成为组织信息  
的一种高效方式。因此本分类作为自然语言处理领域中的一个重要应用到较为广泛的研究[1-2]  
当前商平台商品数量越来越多要对商品进行分类便于寻找自己所需的商品此商品自动分类  
无疑是很好的选择。商品分类是根据商品的描述计一个分类模型过现有已知分类标签的数据进  
行学习利用学习好的模型对新商品进行自动分类。  
基于贝叶斯定理和特征条件相互独立的假设的朴素贝叶斯分类方法可有效地用于文本分类。对于  
给定的训练数据集基于样本特征相互独立的假设下学习输/联合概率分  
用贝叶斯定理计算待分类的数据在各类别下的后验概率后根据最大后验概率原则输出  
分类结果。由于分类模型简单于理解习速度快果好方便在分布式环境下实现并行化学习  
收稿日期2019-04-08  
基金项目安徽省教育厅高校自然科学研究项KJ2018А0382安徽省教育厅优秀青年基金重点项gxyqZD2018060)  
作者简介1997 徽宣城人庆师范大学信息管理与信息系统学生究方向为数据挖掘。  
E-mail
通信作者程树1979 徽潜山人庆师范大学计算机与信息学院副教授究方向为智能信息处理。  
E-mail
· 67 ·  
树林品自动分类的贝叶斯方法Python实现  
2期  
和分类[3]及可以实现实时分类的特点此基于贝叶斯的分类方法在各种文本分类应用中较为广泛。  
朴素贝叶斯分类方法对维度过高的情况时分类效果不是很理想。而在基于商品描述的文本分类问  
题中品描述相对较短且特征词较为集中。因此合使用朴素贝叶斯分类方法进行商品的自动分  
类。本文针对第十届中国大学创新创业大赛的А01网络零售商品分究朴素贝叶  
斯理论构建商品自动分类模型其提供的 50万条商品数据集进行实验Python语言和模型库实  
现商品的自动分类。  
1 数据预处理  
第十届中国大学创新创业大赛的А01网络零售商品分据集包含50万条已标  
记的数据始数据集中每件商品仅给出了描述信息以及商品所属的类别例如1所示。  
1 数据集示例截图  
原始数据不能直接用来分类要进行数据预处理。(1)使Python pandas pandas.  
DataFrame.drop( )方法滤除缺失的数据。由于朴素贝叶斯是一个概率分类器要计算出某词汇描述属  
于各分类的概率要通过正则表达式对商品描述信息进行分词处理将所有商品描述信息去除所有  
的非文字部分后利jieba分词器对商品描述信息进行词语切分2所示。(2)清除中文停用词些  
停用词对商品描述信息本身并没有多大意义。部分清除后的商品描述信息如3所示。  
2 切词后数据集示例  
3 清除停用词后商品描述信息示例  
2 特征提取与模型构建  
数据集中商品描述为短文本过切词后得到商品的特征信息。采sklearn库中CountVectoriz-  
er类进行特征词的量化计算。CountVectorizer是一个文本特征提取方法思想是先根据训练集中所有  
样本考虑其出现顺序将训练文本中每个出现过的词汇单独视为一列特征成一个词汇表(Vo-  
cabulary List)方法又称为词袋法(Bag of Words)。然后使Python 中的 fit_transform 函数将特征词  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载