推荐星级:
- 1
- 2
- 3
- 4
- 5
基于主动学习和否定选择的垃圾邮件分类算法
资料介绍
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.
部分文件列表
文件名 | 大小 |
基于主动学习和否定选择的垃圾邮件分类算法.pdf | 2M |
部分页面预览
(完整内容请下载后查看)1
Vol. 46 No. 1
Jan. 2018
第
期
电
子
学
报
2018
1
ACTA ELECTRONICA SINICA
年
月
基于主动学习和否定选择的
垃圾邮件分类算法
1
1
2
, ,
胡小娟 刘 磊 邱宁佳
( 1.
,
吉林大学计算机科学与技术学院 吉林长春
130012; 2.
,
长春理工大学计算机科学技术学院 吉林长春
130022)
:
,
针对现在网络上泛滥的垃圾邮件问题 本文结合主动学习方法和否定选择算法提出了一种二类文本分
摘
要
: . ,
类方法 主动否定学习算法 根据用户少量标注建立双向兴趣集 利用否定选择算法的自体异常检测机制改善主动学
, , , .
习中的采样策略 并将双向兴趣集作为检测器 新增样本集作为自体集 对两者进行异常匹配 本文算法与在线垃圾邮
、 、 、
件快速识别方法 增强差异性的半监督协同分类算法 垃圾邮件过滤方法 基于人工高免疫的多层垃圾邮件过滤算法
, 、
和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较 结果表明本文算法具有较高的准确率 召回
、 , . ;
率 分类精度 和较低的用户标注负担 使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力 利
,
用异常检测匹配选取未知类别特征的方式 有效地降低了用户标注负担
.
:
;
;
;
;
关键词
中图分类号
URL: http: / /www. ejournal. org. cn
文本分类 垃圾邮件检测 主动学习 否定选择 双向用户兴趣集
TP391 0372-2112 ( 2018) 01-0203-07
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 01. 028
:
:
A
:
文章编号
文献标识码
电子学报
A Novel Spam Categorization Algorithm Based on Active
Learning Method and Negative Selection Algorithm
1
1
2
HU Xiao-juan ,LIU Lei ,QIU Ning-jia
( 1. College of Computer Science and Technology,Jilin University,Changchun,Jilin 130012,China;
2. School of Computer Science and Technology,Changchun University of Science and Technology,Changchun,Jilin 130022,China)
Abstract: A two-class text categorization method,active learning negative selection text categorization ( ALNSTC)
algorithm,based on active learning ( AL) method and negative selection ( NS) algorithm,is proposed for the problem of
spam proliferation. The positive user interest set and the negative user interest set are established according to a small number
of labeled samples. And the sampling engine ( SE) of AL method is improved by the autologous anomaly detection mecha-
nism of the NS algorithm. The two-way user interest sets are used as detectors,and a new sample set is employed as a self-
set. The above two sets are matched with Hamming match rules. The classification process of each sample set is able to up-
date the two user interest sets. The proposed algorithm is carried out with a full-scale test on six common spam corpus,which
are selected as experimental material,and analyzed and compared with other five state-of-the-art spam classification meth-
ods,which are quick online spam identification ( QOSI) method,semi-supervised collaboration classification algorithm with
enhanced difference ( DSCC) ,dynamic web spam filtering ( WSF2) method,multilevel spam filtering algorithm based on
artificial immunity ( MSFA-AI) ,and integrated multi-field learning ( MFL) method,in different evaluation metrics,such as
precision,recall,ROC curve,categorization running time and the labeled number of spam. The results show that the proposed
method has better precision rate,recall rate,classification accuracy,and can reduce the artificial labeled number of spam sam-
ples. It is advantageous to enhance the classification capacity of the algorithm that the user preferences are converted into
positive and negative user interest sets. In addition,the user labeled number is reduced when unknown category features are
obtained by the exception detection mechanism.
: 2016-10-24;
: 2017-05-17;
:
收稿日期
修回日期
责任编辑 覃怀银
吉林省博士后科研资助项目
( No. 2016M591482)
:
基金项目 吉林省自然科学基金
( No. 20150101054JC) ;
( No. 40301919) ;
吉林省科技发展计划重点科技攻关项目
( No. 20150204036GX) ;
中国博士后科学基金
204
2018
年
电
子
学
报
Key words: text categorization; spam detection; active learning; negative selection; two-way user interest set
件分类中准确率与召回率的提高和耗费时间与人工
1
引言
,
标注负担的降低等问题 提出一种新的二类文本分类
, 、
随着互联网的发展 邮件 微信
、QQ
等网络通信设
:
算法 主动否定学习算法
( Active Learning Negative Se-
.
施已成为人们平时交流的必备方式 而种类繁多的垃
lection Text Categorization,ALNSTC) .
利用基于二项假
[11]
,
圾邮件和信息却时时困扰用户 如何高效检测出这些
( Bi-Test)
设的关键特征选择算法
先对样本的原特
.
垃圾信息成为研究热点 目前垃圾邮件识别的研究现
, ,
征集进行筛选 提高所选关键特征的重要程度 减少
: ( 1)
,
由于专家标注的经济代价太大 且无法对大
状是
,
计算耗费和用户的标注负担 提高用户标注的价值
,
,
规模问题进行有效标注 无标记样本数据数量巨大且
,
减少耗时 解决
NS
.
算法中分类精度不高的问题 利用
[1]
; ( 2)
容易获取
现有解决方法中的传统机器学习算
根据用户标注的少量样本建立正向和负向兴趣集的
, , ,
法 尤其是有监督学习算法 必须大量标记样本数据 否
, , ,
方式 从两端向中间覆盖 提高覆盖率 解决检测器覆
[2]
; ( 3)
,
对于垃圾邮件过滤问题 用户
则泛化性能较低
.
盖率低的问题 将学习引擎引入到检测器生成机制
[3]
; ( 4)
的个人喜好对分类结果影响较大
在线进行人工
, ,
中 将学习生成的双向兴趣集作为检测器 使得邮件
, .
样本标注时 专家无法直接选择最佳标注时机 在这种
, ,
分类能够符合用户的个性化喜好 同时 也使得检测
,
( Active Learning,AL)
方法成为解决
情况下 主动学习
上述问题的主流技术
AL
.
器生成机制具有自学习性 由于双向兴趣集和异常检
.
,
测匹配规则的使用 使得未知类别的关键特征数量减
( Learning Engine,LE)
方法主要分为学习引擎
, ,
少 进而减少人工标注负担 弥补
AL
方法需要大量人
( Sampling Engine,SE)
,LE
部分是在
和采样引擎
有标记的样本集上循环训练 当达到一定训练精度后
. SE
两部分
.
工标注的不足问题
,
2
ALNSTC
基本思想
,
部分则是对未标记样本进行选样 提交给专家
输出
进行人工标注
方法提出一种新的在线主动多领域学习方法
低了垃圾邮件过滤中的人工标记负担和空间存储成
[4]
. Liu
、
AL
基于在线学习 多领域学习和
2. 1
准备工作
MFL,
降
,
在进行邮件分类前 首先对邮件进行预处理操作
.
, 、
鉴于邮件本身的隐私性和特殊性 对邮件中的附件 标
[5]
. Benevenuto
YouTube
本
针对
中的垃圾邮件发送者和
方法提取重要度最大的子集对
. Feng AL
、 ,
签 停用词等进行预处理后 进行分词和还原词根处理
,
,
接收者信息 利用
AL
,
再对其进行编码 将邮件文本中的文字转换为数字代
[6]
YouTube
进行检测
基于
方法提出了一种基
,
码的格式 规避用户隐私泄露
.
,
于边缘密度的不确定性评估方法 在保证准确率的基
,
将经过预处理的邮件文本作为样本 每个样本经
[7]
.
础上降低了分类的耗费时间
, .
分词后形成一组原特征 组成原特征集 为减少计算负
( Negative Selection,NS)
否定选择
算法模拟了免疫
, [11] Bi-Test
担 本文采用文献 中的 方法对每个原特征
,
系统识别自体和非自体细胞的否定选择过程 首先随
, ,
集进行关键特征筛选 用其代替样本进行分类操作 有
, ,
机产生检测器 删除那些检测到自体的检测器 保留检
.
效降低了特征空间的维度
2. 2
建立用户兴趣集
,
测到非自体的检测器 进而完成自体与非自体数据的
[8]
.
,
其缺点是采样不当时会对分类结果产生影响
分类
将已标注的少量邮件作为本文算法的初始训练集
,
且各检测器的覆盖空间有交集 会出现整体覆盖率较
S , . S
,
其中既包含合法邮件 也包含垃圾邮件 对 经过
0
0
; ,
低的问题 优点是无需先验知识 只需利用有限数量的
S ', S '
对
0
,
进行关键特征选择 得关
一系列预处理后变成
0
. Ismaila
自体便能检测出无限数量的非自体
NS
利用粒子
FS ,FS = { FS ,FS ,…,FS } ,FS
02
键特征集
代表某一
0i
0
0
01
0K
,
算法中的随机检测器生成机制 提
群优化方法改善
.
邮件的关键特征集 合法邮件的关键特征集组成用户
[9]
NSA-PSO
,
模型 可应用于
CS
,
出
端的垃圾邮件检测
P,
正向兴趣集 垃圾邮件的关键特征集组成用户负向兴
NS
,
算法相结合 用于提
另将局部选择差分进化方法和
N, P N = .
且 ∩ 双向用户兴趣集的建立过程如图
趣集
[10]
.
高垃圾邮件过滤的准确率
1
.
所示 通过
S
P
N
和 的详细算法如
创建用户兴趣集
0
,
综上 目前现存的方法中有基于
AL
方法改善邮
1
算法 所示
.
,
件分类的 也有基于
NS
,
算法改进邮件分类的 但都只
、 , ,
是在准确率 或召回率 或耗费时间 或标注负担等单
1
算法
建立双向用户兴趣集
,
方面上有所改善 本文结合
AL NS
方法和
,
算法 结合
'
S
0
:
输入 原始特征集
, ,
双向兴趣集 以及关键特征选择方法 致力于解决邮
: P
输出 正向用户兴趣集 和负向用户兴趣集
N
全部评论(0)