推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于马氏抽样的SVM非平衡数据分类算法的泛化性能研究

更新时间:2019-12-24 17:47:31 大小:3M 上传用户:守着阳光1985查看TA发布的资源 标签:数据分类算法 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

本文将样本为独立同分布的情形减弱为一致遍历马氏链的情形去研究了非平衡数据分类算法的泛化性能,提出了基于马氏抽样的SVM非平衡数据分类算法、基于马氏抽样的EDSVM非平衡数据分类算法和基于马氏抽样的SVM-WKNN非平衡数据分类算法.并用UCI数据库中的10个实际不平衡数据集进行数值实验,实验结果表明基于马氏抽样的上述三种算法的错分率均比基于随机抽样的对应算法的错分率要低,且上述三种算法中,基于马氏抽样的SVM-WKNN非平衡数据分类算法的泛化性能最好.


部分文件列表

文件名 大小
基于马氏抽样的SVM非平衡数据分类算法的泛化性能研究.pdf 3M

部分页面预览

(完整内容请下载后查看)
11  
Vol. 46 No. 11  
Nov. 2018  
2018  
11  
ACTA ELECTRONICA SINICA  
SVM  
的  
 
数据研究  
徐 婕 贺美美  
(
大学计算机与信息工学院  
430062)  
:
本文形减去研究数据化  
SVM EDSVM  
数据抽  
能 提出了的  
数据的  
SVM-WKNN  
. UCI  
数据用  
10 ,  
数据中的 个数据集进实验 实验结果表明基  
的  
, ,  
的上的错的对应算的错低 且中 基样  
SVM-WKNN  
数据好  
:
;
; k ;  
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
持向机  
数据  
:
TP181  
:
A
: 0372-2112 ( 2018) 11-2660-11  
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 11. 013  
文献标识码  
文章编号  
电子学报  
Research on the Generalization Performance of SVM Imbalanced Data  
Classification Algorithm Based on Markov Sampling  
XU JieHE Mei-mei  
( School of Computer Science and Information EngineeringHubei UniversityWuhanHubei430062China)  
Abstract: This paper changes the assumption that samples are independent and identically distributed to that samples  
are uniformly ergodic Markov chainswhich make it convenient for us to study the generalization performance of the imbal-  
anced data classification algorithmand SVM imbalanced data classification algorithm based on Markov samplingEDSVM  
imbalanced data classification algorithm based on Markov sampling and SVM-WKNN imbalanced data classification algo-  
rithm based on Markov sampling are proposed. The numerical experiments of ten actual imbalanced datasets in the UCI data-  
base show that the misclassification rate of the above algorithm based on Markov sampling is lower than that of the corre-  
sponding algorithm based on random samplingand the above three algorithmsSVM-WKNN imbalanced data classification  
algorithm based on Markov sampling has the best generalization performance.  
Key words: Markov sampling; support vector machine; k-nearest neighbor; imbalanced data  
种方  
1
引言  
9]  
, ,  
基本思想那么以通  
不管界还是工业于不数据的  
, ;  
策略 种方是  
1]  
研究注  
数  
考虑情况代价差  
2]  
10]  
数据集的 对准  
, ,  
从而对算行优化 使数据分  
11]  
, ,  
问题来说 数量多多数本  
有较的效果 近来  
Japkowicz  
证明  
,  
数量在实应用中 数据出  
了在树  
C4. 5SVM  
法  
3]  
4]  
12]  
断  
信用欺  
文本类  
SVM  
数据的影响较人  
5]  
6]  
7]  
.  
故障前  
检测  
网络攻击别  
KSVM k SVM  
通过和  
提出了一种  
8]  
:
自的阶段计算待测本与持向  
数据问题用的种  
一  
: 2017-09-04;  
: 2018-02-05; :  
责任编辑 蓝红杰  
收稿日期  
修回日期  
:
基金项目 国家自然科学基金  
( No. 61370002No. 61403132No. 61772011)  
2661  
11  
: SVM  
数据研究  
N
*
*
, , SVM  
距离 距离给定来  
y ( x ·x ) ,  
中  
i
a .  
本线  
i
α
i = 1  
i
i
j
持向训练本的  
k
, ,  
以使数 将到高维特  
13]  
出了一种算  
从而使本线性本可以在高维  
EDSVM( Euclidean Distance NN & Support Vector  
1
2
分 此所求为  
: min  
w
‖ ‖  
+ C  
2
Machine) ,  
距 离 面 较 使 用  
N
ξ 使得  
i
y ( w·x + b) 1 -  
i
ξ ξ   
i
0i = 12N,  
SVM  
距离面较全  
i = 1  
i
i
C  
ξ 惩罚子  
i
k ,  
持向训练本的 提  
SVM  
通过  
训练持向的  
高了率  
上算设  
”  
关键样冗  
表明了  
SVM  
“ ” .  
但  
设无还  
SVM  
点  
在实应用中机器学应  
会存在一即  
SVM  
分  
用中产生数据同  
误一附近  
2. 2 k  
近邻算法  
形减如一链  
14]  
.  
相关研究 如  
: Xu  
证明了  
k
( k-Nearest NeighborKNN)  
一种  
法  
SVM  
的  
SVM  
样  
15]  
.  
距离的算它没训练程 具体过  
. Zou  
要好  
提出了于  
16]  
: ,  
程为 每来未知此样附近找  
k
. Smale  
法  
样  
, ,  
个与结果 数量最  
到了在线学中 本文考虑布  
.  
判定为该类  
问题不能满足 的效  
13]  
KNN  
的马研究于  
懒惰法  
为要描全训练计算距离所计算较  
KNN ,  
是  
较大时  
SVM  
本的  
数据泛  
出了数据类  
大 由于  
所属的  
KNN  
他  
, :  
分别的  
SVM  
算  
数据基  
的  
EDSVM  
交叉分样来说  
SVM-WKNN  
数据法 三种  
合  
的  
2. 3 EDSVM  
通过法所需训练本  
算法  
13]  
的算数据进数据  
EDSVM ( Euclidean Distance NN & Support Vector  
集实验结果表明 样分化  
Machine) SVM KNN  
一种和  
合的数  
SVM  
是优样分并  
, :  
思想待测本与  
类  
且将的对发现 于  
SVM  
面的距离于一用  
;
待测  
SVM-WKNN  
SVM  
面的距离小于一时 以  
的  
数据性  
离  
有的持向本的本 用  
KNN  
好  
类  
2
相关绍  
EDSVM  
持向量能够代训练集  
EDSVM  
2. 1  
支持  
.  
提高了器的但  
考  
17]  
( Support Vector Machine,  
称  
SVM)  
持向机  
KNN  
KNN  
数据带来的影响  
用  
样  
一种应用广通过使风险化  
, ,  
赋予当样会  
提高风险和置范围化  
基本的线性类  
Z = { z = ( x y ) z =  
数据本容较大的造成错  
情况  
2. 4  
给定集  
1
1
1
2
链  
的机器学立在然  
应用中产生自然非  
n
( x y ) z = ( x y ) } ,  
中  
N
x
R y  
{ + 1-  
2
2
N
N
i
i
1} i = 12N.  
: f( x) = sign  
为  
( wx + b) ,  
中  
:
合机器学数据的  
- 1f( x) < 0  
, ,  
情况 本文的马面  
sign( f( x) ) =  
{
+ 1f( x)  
0
念  
( ZS)  
N
*
: w =  
y x b = y -  
α
i = 1 i  
求得  
个可随  
i
i
i

全部评论(0)

暂无评论