推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于主动学习和否定选择的垃圾邮件分类算法

更新时间:2019-12-24 04:37:32 大小:2M 上传用户:守着阳光1985查看TA发布的资源 标签:垃圾邮件分类算法 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.


部分文件列表

文件名 大小
基于主动学习和否定选择的垃圾邮件分类算法.pdf 2M

部分页面预览

(完整内容请下载后查看)
1
Vol. 46 No. 1  
Jan. 2018  
2018  
1
ACTA ELECTRONICA SINICA  
基于否定选择的  
垃圾法  
1
1
2
, ,  
佳  
( 1.  
大学计算机科学与技术学院 林长  
130012; 2.  
大学计算机科学技术学院 林长春  
130022)  
:
网络垃圾问题 本文法和否定选择提出一种文本分  
: ,  
否定根据用建立兴趣利用否定选择的自异常制改学  
, , .  
中的策略 并将兴趣集作为测器 新增本集作为自对两进行异常匹配 本文算线垃圾邮  
、 、 、  
快速差异垃圾基于的多垃圾法  
、  
线领域进行了结果表明本文算高的回  
;  
率 分和较低使用用兴趣的方于提高算的分利  
异常匹配未知的方了用担  
:
;
;
;
;
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
文本分垃圾否定选择 兴趣集  
TP391 0372-2112 ( 2018) 01-0203-07  
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 01. 028  
:
:
A
:
文章编号  
文献标识码  
电子学报  
A Novel Spam Categorization Algorithm Based on Active  
Learning Method and Negative Selection Algorithm  
1
1
2
HU Xiao-juan LIU Lei QIU Ning-jia  
( 1. College of Computer Science and TechnologyJilin UniversityChangchunJilin 130012China;  
2. School of Computer Science and TechnologyChangchun University of Science and TechnologyChangchunJilin 130022China)  
Abstract: A two-class text categorization methodactive learning negative selection text categorization ( ALNSTC)  
algorithmbased on active learning ( AL) method and negative selection ( NS) algorithmis proposed for the problem of  
spam proliferation. The positive user interest set and the negative user interest set are established according to a small number  
of labeled samples. And the sampling engine ( SE) of AL method is improved by the autologous anomaly detection mecha-  
nism of the NS algorithm. The two-way user interest sets are used as detectorsand a new sample set is employed as a self-  
set. The above two sets are matched with Hamming match rules. The classification process of each sample set is able to up-  
date the two user interest sets. The proposed algorithm is carried out with a full-scale test on six common spam corpuswhich  
are selected as experimental materialand analyzed and compared with other five state-of-the-art spam classification meth-  
odswhich are quick online spam identification ( QOSI) methodsemi-supervised collaboration classification algorithm with  
enhanced difference ( DSCC) dynamic web spam filtering ( WSF2) methodmultilevel spam filtering algorithm based on  
artificial immunity ( MSFA-AI) and integrated multi-field learning ( MFL) methodin different evaluation metricssuch as  
precisionrecallROC curvecategorization running time and the labeled number of spam. The results show that the proposed  
method has better precision raterecall rateclassification accuracyand can reduce the artificial labeled number of spam sam-  
ples. It is advantageous to enhance the classification capacity of the algorithm that the user preferences are converted into  
positive and negative user interest sets. In additionthe user labeled number is reduced when unknown category features are  
obtained by the exception detection mechanism.  
: 2016-10-24;  
: 2017-05-17;  
:
收稿日期  
修回日期  
责任编辑 覃怀银  
林省博士科研项目  
( No. 2016M591482)  
:
基金项目 林省自然科学基金  
( No. 20150101054JC) ;  
( No. 40301919) ;  
林省科技发展计划重科技项目  
( No. 20150204036GX) ;  
中国博士科学基金  
204  
2018  
Key words: text categorization; spam detection; active learning; negative selection; two-way user interest set  
率的提高工  
1
引言  
等问题 提出一种文本分类  
、  
着互联网的发展 邮信  
QQ  
网络通信设  
:
否定法  
( Active Learning Negative Se-  
成为多的垃  
lection Text CategorizationALNSTC) .  
利用假  
11]  
信息时时高效这些  
( Bi-Test)  
关键选择法  
先对特  
垃圾信息成为研究垃圾的研究现  
, ,  
进行度 减少  
: ( 1)  
且无法大  
状是  
计算值  
问题进行有记样数据数且  
减少耗时 解决  
NS  
中分度不高的问题 利用  
1]  
; ( 2)  
容易获取  
的传算  
根据用立正的  
, , ,  
其是有法 必须记样数据 否  
, , ,  
从两端覆盖 提高覆盖率 测器覆  
2]  
; ( 3)  
垃圾问题 用户  
能较低  
盖率题 将入到制  
3]  
; ( 4)  
类结果影响大  
线进行人工  
, ,  
作为使件  
.  
无法接选择佳标种  
, ,  
使测  
( Active LearningAL)  
决  
情况习  
问题技术  
AL  
成机自学性 由兴趣异常检  
匹配使用 使得未知关键减  
( Learning EngineLE)  
分为学擎  
, ,  
少 进而减少人补  
AL  
人  
( Sampling EngineSE)  
LE  
是在  
和采擎  
本集度后  
. SE  
两部分  
问题  
2
ALNSTC  
基本  
是对记样进行选提交家  
输出  
进行人注  
提出一种线领域法  
垃圾成  
4]  
. Liu  
AL  
基于线领域和  
2. 1  
 
MFL,  
在进行类前 先对进行处理作  
、  
于邮特殊性 对中的标  
5]  
. Benevenuto  
YouTube  
对  
中的垃圾送者和  
大的子集对  
. Feng AL  
,  
等进行处理后 进行处理  
信息 用  
AL  
对其进行编码 文本中的文代  
6]  
YouTube  
进行测  
基于  
提出一种基  
码的露  
边缘保证率的基  
处理的邮文本作为经  
7]  
础上间  
.  
成一组原集 为减少计算负  
( Negative SelectionNS)  
否定选择  
模拟疫  
11Bi-Test  
本文中的 方征  
否定选择过程 随  
, ,  
进行关键选 用其代替进行有  
, ,  
测器 删测器 检  
度  
2. 2  
用户兴趣集  
测器 进而成自数据的  
8]  
点是会对类结果影响  
类  
作为本文算初始集  
测器的覆盖间有交集 覆盖率较  
S . S  
垃圾过  
0
0
; ,  
问题 优点是验知只需利用有的  
S S '  
0
进行关键选择 得关  
系列处理成  
0
. Ismaila  
便无限体  
NS  
利用子  
FS FS = { FS FS FS } FS  
02  
集  
一  
0i  
0
0
01  
0K  
中的测器成机提  
法改善  
关键集 合关键户  
9]  
NSA-PSO  
模型 应用于  
CS  
垃圾测  
P,  
兴趣垃圾关键兴  
NS  
于提  
部选择法和  
NP N = .  
∩  兴趣集的建立过程如图  
集  
10]  
垃圾率  
1
过  
S
P
N
详细如  
兴趣集  
0
于  
AL  
邮  
1
示  
基于  
NS  
法改只  
, ,  
是在回率 或耗单  
1
算法  
向用户兴趣  
有所合  
AL NS  
和  
合  
S
0
:
原始集  
, ,  
兴趣邮  
: P  
输出 兴趣兴趣集  
N

全部评论(0)

暂无评论