您现在的位置是：首页 > 技术资料 > 基于主动学习和否定选择的垃圾邮件分类算法

推荐星级：

基于主动学习和否定选择的垃圾邮件分类算法

更新时间：2019-12-24 04:37:32 大小：2M 上传用户：守着阳光1985 查看TA发布的资源 标签：垃圾邮件分类算法 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.

部分文件列表

文件名	大小
基于主动学习和否定选择的垃圾邮件分类算法.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

Vol． 46 No． 1

Jan． 2018

第

期

电

子

学

报

2018

ACTA ELECTRONICA SINICA

年

月

基于主动学习和否定选择的

垃圾邮件分类算法

，，

胡小娟刘磊邱宁佳

( 1．

，

吉林大学计算机科学与技术学院吉林长春

130012; 2．

，

长春理工大学计算机科学技术学院吉林长春

130022)

，

针对现在网络上泛滥的垃圾邮件问题本文结合主动学习方法和否定选择算法提出了一种二类文本分

摘

要

: ．，

类方法主动否定学习算法根据用户少量标注建立双向兴趣集利用否定选择算法的自体异常检测机制改善主动学

，，，．

习中的采样策略并将双向兴趣集作为检测器新增样本集作为自体集对两者进行异常匹配本文算法与在线垃圾邮

、、、

件快速识别方法增强差异性的半监督协同分类算法垃圾邮件过滤方法基于人工高免疫的多层垃圾邮件过滤算法

，、

和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较结果表明本文算法具有较高的准确率召回

、，． ;

率分类精度和较低的用户标注负担使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力利

，

用异常检测匹配选取未知类别特征的方式有效地降低了用户标注负担

．

;

关键词

中图分类号

URL: http: / /www． ejournal． org． cn

文本分类垃圾邮件检测主动学习否定选择双向用户兴趣集

TP391 0372-2112 ( 2018) 01-0203-07

DOI: 10． 3969 /j． issn． 0372-2112． 2018． 01． 028

文章编号

文献标识码

电子学报

A Novel Spam Categorization Algorithm Based on Active

Learning Method and Negative Selection Algorithm

HU Xiao-juan ，LIU Lei ，QIU Ning-jia

( 1． College of Computer Science and Technology，Jilin University，Changchun，Jilin 130012，China;

2． School of Computer Science and Technology，Changchun University of Science and Technology，Changchun，Jilin 130022，China)

Abstract: A two-class text categorization method，active learning negative selection text categorization ( ALNSTC)

algorithm，based on active learning ( AL) method and negative selection ( NS) algorithm，is proposed for the problem of

spam proliferation． The positive user interest set and the negative user interest set are established according to a small number

of labeled samples． And the sampling engine ( SE) of AL method is improved by the autologous anomaly detection mecha-

nism of the NS algorithm． The two-way user interest sets are used as detectors，and a new sample set is employed as a self-

set． The above two sets are matched with Hamming match rules． The classification process of each sample set is able to up-

date the two user interest sets． The proposed algorithm is carried out with a full-scale test on six common spam corpus，which

are selected as experimental material，and analyzed and compared with other five state-of-the-art spam classification meth-

ods，which are quick online spam identification ( QOSI) method，semi-supervised collaboration classification algorithm with

enhanced difference ( DSCC) ，dynamic web spam filtering ( WSF2) method，multilevel spam filtering algorithm based on

artificial immunity ( MSFA-AI) ，and integrated multi-field learning ( MFL) method，in different evaluation metrics，such as

precision，recall，ROC curve，categorization running time and the labeled number of spam． The results show that the proposed

method has better precision rate，recall rate，classification accuracy，and can reduce the artificial labeled number of spam sam-

ples． It is advantageous to enhance the classification capacity of the algorithm that the user preferences are converted into

positive and negative user interest sets． In addition，the user labeled number is reduced when unknown category features are

obtained by the exception detection mechanism．

: 2016-10-24;

: 2017-05-17;

收稿日期

修回日期

责任编辑覃怀银

吉林省博士后科研资助项目

( No． 2016M591482)

基金项目吉林省自然科学基金

( No． 20150101054JC) ;

( No． 40301919) ;

吉林省科技发展计划重点科技攻关项目

( No． 20150204036GX) ;

中国博士后科学基金

204

2018

年

电

子

学

报

Key words: text categorization; spam detection; active learning; negative selection; two-way user interest set

件分类中准确率与召回率的提高和耗费时间与人工

引言

，

标注负担的降低等问题提出一种新的二类文本分类

，、

随着互联网的发展邮件微信

、QQ

等网络通信设

算法主动否定学习算法

( Active Learning Negative Se-

．

施已成为人们平时交流的必备方式而种类繁多的垃

lection Text Categorization，ALNSTC) ．

利用基于二项假

［11］

，

圾邮件和信息却时时困扰用户如何高效检测出这些

( Bi-Test)

设的关键特征选择算法

先对样本的原特

．

垃圾信息成为研究热点目前垃圾邮件识别的研究现

，，

征集进行筛选提高所选关键特征的重要程度减少

: ( 1)

，

由于专家标注的经济代价太大且无法对大

状是

，

计算耗费和用户的标注负担提高用户标注的价值

，

规模问题进行有效标注无标记样本数据数量巨大且

，

减少耗时解决

．

算法中分类精度不高的问题利用

［1］

; ( 2)

容易获取

现有解决方法中的传统机器学习算

根据用户标注的少量样本建立正向和负向兴趣集的

，，，

法尤其是有监督学习算法必须大量标记样本数据否

，，，

方式从两端向中间覆盖提高覆盖率解决检测器覆

［2］

; ( 3)

，

对于垃圾邮件过滤问题用户

则泛化性能较低

．

盖率低的问题将学习引擎引入到检测器生成机制

［3］

; ( 4)

的个人喜好对分类结果影响较大

在线进行人工

，，

中将学习生成的双向兴趣集作为检测器使得邮件

，．

样本标注时专家无法直接选择最佳标注时机在这种

，，

分类能够符合用户的个性化喜好同时也使得检测

，

( Active Learning，AL)

方法成为解决

情况下主动学习

上述问题的主流技术

．

器生成机制具有自学习性由于双向兴趣集和异常检

．

，

测匹配规则的使用使得未知类别的关键特征数量减

( Learning Engine，LE)

方法主要分为学习引擎

，，

少进而减少人工标注负担弥补

方法需要大量人

( Sampling Engine，SE)

，LE

部分是在

和采样引擎

有标记的样本集上循环训练当达到一定训练精度后

． SE

两部分

．

工标注的不足问题

，

ALNSTC

基本思想

，

部分则是对未标记样本进行选样提交给专家

输出

进行人工标注

方法提出一种新的在线主动多领域学习方法

低了垃圾邮件过滤中的人工标记负担和空间存储成

［4］

． Liu

、

基于在线学习多领域学习和

2． 1

准备工作

MFL，

降

，

在进行邮件分类前首先对邮件进行预处理操作

．

，、

鉴于邮件本身的隐私性和特殊性对邮件中的附件标

［5］

． Benevenuto

YouTube

本

针对

中的垃圾邮件发送者和

方法提取重要度最大的子集对

． Feng AL

、，

签停用词等进行预处理后进行分词和还原词根处理

，

接收者信息利用

，

再对其进行编码将邮件文本中的文字转换为数字代

［6］

YouTube

进行检测

基于

方法提出了一种基

，

码的格式规避用户隐私泄露

．

，

于边缘密度的不确定性评估方法在保证准确率的基

，

将经过预处理的邮件文本作为样本每个样本经

［7］

．

础上降低了分类的耗费时间

，．

分词后形成一组原特征组成原特征集为减少计算负

( Negative Selection，NS)

否定选择

算法模拟了免疫

，［11］ Bi-Test

担本文采用文献中的方法对每个原特征

，

系统识别自体和非自体细胞的否定选择过程首先随

，，

集进行关键特征筛选用其代替样本进行分类操作有

，，

机产生检测器删除那些检测到自体的检测器保留检

．

效降低了特征空间的维度

2． 2

建立用户兴趣集

，

测到非自体的检测器进而完成自体与非自体数据的

［8］

．

，

其缺点是采样不当时会对分类结果产生影响

分类

将已标注的少量邮件作为本文算法的初始训练集

，

且各检测器的覆盖空间有交集会出现整体覆盖率较

S ，． S

，

其中既包含合法邮件也包含垃圾邮件对经过

; ，

低的问题优点是无需先验知识只需利用有限数量的

S ＇， S ＇

对

，

进行关键特征选择得关

一系列预处理后变成

． Ismaila

自体便能检测出无限数量的非自体

利用粒子

FS ，FS = { FS ，FS ，…，FS } ，FS

键特征集

代表某一

，

算法中的随机检测器生成机制提

群优化方法改善

．

邮件的关键特征集合法邮件的关键特征集组成用户

［9］

NSA-PSO

，

模型可应用于

，

出

端的垃圾邮件检测

P，

正向兴趣集垃圾邮件的关键特征集组成用户负向兴

，

算法相结合用于提

另将局部选择差分进化方法和

N， P N = ．

且 ∩  双向用户兴趣集的建立过程如图

趣集

［10］

．

高垃圾邮件过滤的准确率

．

所示通过

和的详细算法如

创建用户兴趣集

，

综上目前现存的方法中有基于

方法改善邮

算法所示

．

，

件分类的也有基于

，

算法改进邮件分类的但都只

、，，

是在准确率或召回率或耗费时间或标注负担等单

算法

建立双向用户兴趣集

，

方面上有所改善本文结合

AL NS

方法和

，

算法结合

＇

输入原始特征集

，，

双向兴趣集以及关键特征选择方法致力于解决邮

: P

输出正向用户兴趣集和负向用户兴趣集

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

我是蒙帆打赏1.00元 3天前

资料：TS-14PFX-4 TS-16PFX-4 调音台说明书
21ic小能手打赏10.00元 3天前

资料：大疆M3508 无刷电机完整驱动程序
21ic小能手打赏10.00元 3天前

资料：智慧景区AI大模型智能安防应用方案
21ic小能手打赏5.00元 3天前

资料：数字政府AI大模型场景应用可行性研究报告
21ic小能手打赏5.00元 3天前

资料：数字县域智慧城市工程总承包（EPC）可行性研究报告Word(
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏210.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏210.00元 3天前

用户：xzxbybd
21ic下载打赏70.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：kk1957135547
21ic下载打赏15.00元 3天前

用户：w993263495

21ic下载打赏30.00元 3天前

用户：SkyEagle88
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏5.00元 3天前

用户：dong2223333
21ic下载打赏10.00元 3天前

用户：dxb3320
21ic下载打赏10.00元 3天前

用户：DXB193394
21ic下载打赏10.00元 3天前

用户：westup
21ic小能手打赏15.00元 3天前

资料：stm32的单片机带云台智能小车有图像识别
21ic小能手打赏20.00元 3天前

资料：科创大赛“料理人生”厨房智能机器人项目资料包
21ic小能手打赏8.00元 3天前

资料：久坐智能提醒坐垫项目申报书资料
21ic小能手打赏5.00元 3天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 3天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 3天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 3天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 3天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 3天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：zhengdai

基于主动学习和否定选择的垃圾邮件分类算法

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页