您现在的位置是：首页 > 技术资料 > 基于马氏抽样的SVM非平衡数据分类算法的泛化性能研究

推荐星级：

基于马氏抽样的SVM非平衡数据分类算法的泛化性能研究

更新时间：2019-12-24 17:47:31 大小：3M 上传用户：守着阳光1985 查看TA发布的资源 标签：数据分类算法 下载积分：1分评价赚积分（如何评价?）收藏评论(0) 举报

资料介绍

本文将样本为独立同分布的情形减弱为一致遍历马氏链的情形去研究了非平衡数据分类算法的泛化性能,提出了基于马氏抽样的SVM非平衡数据分类算法、基于马氏抽样的EDSVM非平衡数据分类算法和基于马氏抽样的SVM-WKNN非平衡数据分类算法.并用UCI数据库中的10个实际不平衡数据集进行数值实验,实验结果表明基于马氏抽样的上述三种算法的错分率均比基于随机抽样的对应算法的错分率要低,且上述三种算法中,基于马氏抽样的SVM-WKNN非平衡数据分类算法的泛化性能最好.

部分文件列表

文件名	大小
基于马氏抽样的SVM非平衡数据分类算法的泛化性能研究.pdf	3M

立即下载

【关注视频号领20积分】【关注公众号立即送20积分】

部分页面预览

（完整内容请下载后查看）

Vol． 46 No． 11

Nov． 2018

第

期

电

子

学

报

2018

ACTA ELECTRONICA SINICA

年

月

SVM

基于马氏抽样的

非平衡

数据分类算法的泛化性能研究

，

徐婕贺美美

(

，

湖北大学计算机与信息工程学院湖北武汉

430062)

摘

要

本文将样本为独立同分布的情形减弱为一致遍历马氏链的情形去研究了非平衡数据分类算法的泛化

SVM EDSVM

非平衡数据分类算法和基于马氏抽

，

、

性能提出了基于马氏抽样的

非平衡数据分类算法基于马氏抽样的

SVM-WKNN

． UCI

非平衡数据分类算法并用

10 ，

数据库中的个实际不平衡数据集进行数值实验实验结果表明基

样的

，，

于马氏抽样的上述三种算法的错分率均比基于随机抽样的对应算法的错分率要低且上述三种算法中基于马氏抽样

SVM-WKNN

．

的

非平衡数据分类算法的泛化性能最好

;

; k ;

关键词

中图分类号

URL: http: / /www． ejournal． org． cn

马氏抽样支持向量机

近邻算法非平衡数据

TP181

: 0372-2112 ( 2018) 11-2660-11

DOI: 10． 3969 /j． issn． 0372-2112． 2018． 11． 013

文献标识码

文章编号

电子学报

Research on the Generalization Performance of SVM Imbalanced Data

Classification Algorithm Based on Markov Sampling

XU Jie，HE Mei-mei

( School of Computer Science and Information Engineering，Hubei University，Wuhan，Hubei，430062，China)

Abstract: This paper changes the assumption that samples are independent and identically distributed to that samples

are uniformly ergodic Markov chains，which make it convenient for us to study the generalization performance of the imbal-

anced data classification algorithm，and SVM imbalanced data classification algorithm based on Markov sampling，EDSVM

imbalanced data classification algorithm based on Markov sampling and SVM-WKNN imbalanced data classification algo-

rithm based on Markov sampling are proposed． The numerical experiments of ten actual imbalanced datasets in the UCI data-

base show that the misclassification rate of the above algorithm based on Markov sampling is lower than that of the corre-

sponding algorithm based on random sampling，and the above three algorithms，SVM-WKNN imbalanced data classification

algorithm based on Markov sampling has the best generalization performance．

Key words: Markov sampling; support vector machine; k-nearest neighbor; imbalanced data

，

种方法是从数据层面的角度出发主要方法为重抽

引言

［9］

，，

其基本思想是既然样本是不平衡的那么可以通

样

，

不管是在学术界还是工业界对于不平衡数据的

， ;

过某种抽样策略让样本相对均衡一些第二种方法是

［1］

．

研究已经吸引了越来越多学者的关注

不平衡数

，

从算法的角度出发考虑不同错分类情况下的代价差

［2］

［10］

，

指的是数据集中样本类别是不均衡的对于标准

据

，，

从而对算法进行优化使算法在对不平衡数据分

异

［11］

，，

的二分类问题来说样本数量多的类称为多数类样本

．

类时也能有较好的效果近年来

，Japkowicz

等人证明

．，

数量少的类称为少数类在实际应用中不平衡数据出

、

了在后向传播神经网络决策树

C4. 5、SVM

几类算法

［3］

［4］

［12］

，

现在许多领域如医疗诊断

、

信用卡欺

文本分类

，SVM

．

对非平衡数据的影响较为不敏感李蓉等人

中

［5］

［6］

［7］

、

、．

机械故障诊断等目前

，

诈检测

网络攻击识别

KSVM ， k SVM

算法通过结合近邻算法和

提出了一种

［8］

，

各自的优点在分类阶段计算待测样本与两类支持向

解决非平衡数据分类问题常用的方法有两种

第一

: 2017-09-04;

: 2018-02-05; :

责任编辑蓝红杰

收稿日期

修回日期

基金项目国家自然科学基金

( No． 61370002，No． 61403132，No． 61772011)

2661

: SVM

婕基于马氏抽样的非平衡数据分类算法的泛化性能研究

第

期

徐

，， SVM

量代表点的距离如果距离大于给定阈值则用来

y ( x ·x ) ，

其中

a ．

是拉格朗日系数若样本线

∑

i = 1

，

分类否则以每类支持向量代表点作为训练样本的

近

，，

性不可分可以使用核函数将输入空间映射到高维特

［13］

．

邻算法来分类王超学等人提出了一种改进型算

，

征空间从而使得原本线性不可分的样本可以在高维

—EDSVM( Euclidean Distance NN ＆ Support Vector

法

，

特征空间可分此时所求目标函数为

: min

‖ ‖

+ C

Machine) ，

该算法对距离分类超平面较远的点使用

，

ξ 使得

y ( w·x + b) 1 －



，

ξ ξ 

0，i = 1，2，…N，

∑

SVM

，

进行分类对于距离分类超平面较近的点则以全

i = 1

，C

其中 ξ 为松弛变量为惩罚因子

．

k ，

部的支持向量作为训练样本的近邻算法进行分类提

SVM

通过

训练模型获得的支持向量决定了最终的

．

高了样本分类的正确率

以上算法都是建立在样本是独立同分布的假设

，，“ ”

分类超平面这不但可以抓住关键样本剔除大量冗

，

余样本而且表明了

SVM

“ ” ．

具有较好的鲁棒性但

，

下然而样本是独立同分布的假设无论是在理论上还

SVM

对位于两个类别的边界区域或重叠区域的样本点

，

是在实际应用中都是非常强的并且很多机器学习应

，

进行分类时会存在一定的分类错误即

， SVM

算法的分

，

用中产生的数据并不服从独立同分布于是将独立同

．

类错误一般都发生在最优分类超平面附近

2. 2 k

近邻算法

，

分布的情形减弱为非独立的情形如一致遍历马氏链

［14］

，．

等已有一些学者做了相关研究如

: Xu

等人证明了

( k-Nearest Neighbor， KNN)

简称是一种

近邻算法

SVM

基于马氏抽样的

SVM

算法的泛化性能比基于随机抽样

［15］

，．

基于距离的算法它没有明显的前期训练过程具体过

． Zou

的

算法的泛化性能要好

等人提出了基于

［16］

: ，

程为每来一个未知的样本点就在此样本点附近找

． Smale

马氏抽样的正则化回归算法

等人将马氏抽样

，，

个与之最近的点进行投票统计投票结果某类数量最

．

运用到了在线学习中本文考虑到样本是独立同分布

，．

多就把这个测试样本判定为该类

，

的假设在很多现实问题中不能满足且随机抽样的效

［13］

KNN

，

率比较低所以引入了新的马氏抽样方法来研究基于

属于懒惰学习方法

因为要扫描全部训练样本并计算距离所以计算量会较

KNN ，

方法主要靠周围有限的邻近样本而不是

若测试样本比较大时

SVM

一致遍历马氏链样本的

非平衡数据分类算法的泛

．

，

化性能给出了三种基于马氏抽样的非平衡数据分类

大由于

靠判别类域的方法来确定所属类别因此对于类域的

，KNN

方法较其他

，

， :

算法分别是基于马氏抽样的

SVM

非平衡数据类算

非平衡数据分类算法和基

、

法基于马氏抽样的

EDSVM

交叉或重叠较多的待分样本集来说

．

SVM-WKNN

，

非平衡数据分类算法三种

方法更为适合

于马氏抽样的

，

2. 3 EDSVM

算法都是先通过马氏抽样获取算法所需的训练样本

算法

［13］

．

再选用不同的算法对数据进行分类基于基准库数据

EDSVM ( Euclidean Distance NN ＆ Support Vector

，

集实验结果表明上述基于马氏抽样分类算法的泛化

Machine) SVM KNN

是一种改进的和

组合的不平衡数

SVM

，

性能总是优于基于随机抽样分类算法的泛化性能并

， :

据分类算法主要思想是当待测样本与

最优分类

，

且将上述三种算法进行泛化性能的对比后发现基于

， SVM

超平面的距离大于一定值时用

;

进行分类当待测

SVM-WKNN

SVM

，

最优分类超平面的距离小于一定值时以

马氏抽样的

非平衡数据分类算法的泛化性

样本离

．

，

所有的支持向量作为测试样本的近邻样本用

KNN

能最好

进

．

行分类

全部评论(0)

暂无评论

评论赚积分>>

上传资源

基于马氏抽样的SVM非平衡数据分类算法的泛化性能研究

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

推荐下载

专栏首页