推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于三支决策的不平衡数据过采样方法

更新时间:2019-12-24 04:15:47 大小:1M 上传用户:守着阳光1985查看TA发布的资源 标签:不平衡数据分类 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法.


部分文件列表

文件名 大小
基于三支决策的不平衡数据过采样方法.pdf 1M

部分页面预览

(完整内容请下载后查看)
1
Vol. 46 No. 1  
Jan. 2018  
2018  
1
ACTA ELECTRONICA SINICA  
基于数据过法  
, ,  
胡 峰 蕾 周 耀  
(
( ) 400065)  
计算重庆重庆邮电大学 重庆  
:
,  
数据类问题的一文中理论 根据本分本划分  
: ; , ,  
域 正域 域和在此础上 域和中的小进行不处理 提出一  
( TWD-IDOS  
) ,  
法 实结果表明 在  
C4. 5KNN  
CART ,  
文  
种基于数据过法  
中提出的算法能数据类问题 在  
RecallF-valueAUC  
于文中的法  
:
;
;
;
; SMOTE  
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
粗糙数据  
:
TP39  
:
A
: 0372-2112 ( 2018) 01-0135-10  
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 01. 019  
文献标识码  
文章编号  
电子学报  
An Oversampling Method for Imbalance Data Based on  
Three-Way Decision Model  
HU FengWANG LeiZHOU Yao  
( Chongqing Key Laboratory of Computational Intelligence ( Chongqing University of Posts and Telecommunications) Chongqing 400065China)  
Abstract: Sampling is an effective way to solve the problem of unbalanced data classification. According to the distri-  
bution of sampleswe employ the three-way decision model to divide the universe into three parts: positive regionboundary  
region and negative region. After thatwe oversample the minority class samples in boundary region and negative region re-  
spectively. Thena novel oversampling algorithm for imbalance data based on three-way decision modelnamely TWD-  
IDOSis developed. The experimental results show that the proposed method can effectively solve the two-class classification  
problems of imbalanced data and has a better performance in such measures ( RecallF-valueAUC) on C45KNN and  
CART classifiers than other oversampling methods.  
Key words: three-way decision; neighborhood rough set; boundary sampling; imbalanced data; SMOTE  
的本过各增加数  
1
引言  
, ,  
目 最单的方复制样  
1]  
数据集的分类问题是别  
多学提出高效  
容易导致合  
2]  
, ,  
领域中的一个热点问题 对此问题决  
具代表性是  
SMOTE  
算  
: ,  
分为类是数据处理目的是  
Chawla  
是  
等人提出的一种效的方  
3]  
之间性 在此的方是  
法 能 避 免 象  
是  
目  
导致合成的小影响本的化空  
SMOTE  
, ( )  
增加本的减少样  
SMOTE  
( ) ; ,  
本的是在法上提  
间 从而对  
在过过程中  
效的分法或改的分应  
.  
问题 多学提出了不如  
:
、  
对不数据的目的 集成学  
4]  
Borderline-SMOTE  
, ,  
程  
法  
.  
法 但它们之间  
5]  
避免合成冗余本  
; ASMOTE  
考虑大  
法  
.  
限制广应用 所以在实际应用  
本的分信息 避免了新合成的小大  
场景多的是数据的方法  
: 2016-05-10;  
: 2016-10-31; :  
责任编辑 孙瑶  
收稿日期  
修回日期  
:
基金项目 国家自然科学基金  
( No. 61309014No. 61379114No. 61472056) ;  
( No. 15XJA630003) ;  
重庆沿研究计  
部人划  
( No. KJ1500416)  
重庆科学技术研究  
( No. cstc2013jcyjA40063No. cstc2014jcyjA40049) ;  
136  
2018  
6]  
; SMOTE-RSB*  
间点间 将为基本信  
本的域  
法  
粗糙  
中的念  
, ,  
理论一种影响样  
19]  
1
x
UB Cx  
化空合成的小从而保证大  
定义  
给定意  
子集  
i
i
7]  
B
( x )  
i
:
定义为  
δ  
; KSMOTE  
SMOTE  
进行展  
本的率  
B
( x ) = { x | x U, ( x x )  
Δ  
j
}
( 1)  
δ
δ  
j
过在中合成处理  
B
i
j
B
i
δ 定义  
x x  
1
N
样  
问题 提高合成本的质  
2
8]  
A = { a a a } f( xa )  
N
x a ,  
则  
i
; OSLDD SMOTE  
选择于分类  
1
2
i
Minkowsky  
:
距离可定义为  
本的  
的小根据这些本的度生成  
N
1 /p  
,  
效提高本的分之 对不  
p
( x x ) =  
2
( 2)  
Δ
(
)
| f( x a ) - f( x a ) |  
2
p
1
1
i
i
i = 1  
数据处理 效的增加样  
p = 2  
时 即距离  
本的分信息 可能避免样  
距离计算算分类  
影响  
理论是由加大学者  
20]  
性 对的计算  
Stanfill  
Waltz  
提出  
的  
2
Yao  
提出 要  
M  
Value Dierence Metric.  
x x  
1
本  
L
思想是将划分为分 分为  
V V ,  
1
:
值  
之间距离定义为  
2
R
,  
个域采用不处理复杂  
n
μ
C
C
1i  
2i  
,  
问题一种效的策略与方众  
f( x V ) - f( x V ) =  
2
( 3)  
1
1
2
i = 1  
C
C
1
2
多学在思思想为一理论  
C
V
C  
类  
1i  
是所有本中性值为  
数  
1
1
、 、 .  
信息处理式 和计算方法 关理论的  
i
C  
V
C  
数  
μ 是  
2. 2  
是所有本中性值为 的数  
9]  
2
2
2i  
, :  
应用研究得了等  
提出基  
i
1.  
理论相合的多类  
邻域三模型  
10]  
; Li  
法  
法  
法  
提出基于识  
Yao  
粗糙粗糙理论的基础上提出了  
11]  
; Liu  
logistics  
提出基于  
的多分三  
理论 理论粗糙集的个域理  
12]  
; Yu  
类之间的重  
理论一种信息条  
问题 提 出 基 于 的 重 法  
; Liu  
Yao  
下进行的方法  
问题化定义  
21]  
了有三  
13]  
14]  
; Liu  
理论应用在上  
15]  
; Chen  
理论应用在不信息统  
; Liu  
应用在减  
三  
2
U,  
定义  
给定非空本集合  
( x) = { y | y U, ( xy)  
16]  
17]  
Zhou  
x
 ∈  
Ux  
域可δ  
( x)  
的大别和小  
Δ
粗糙理论 一种多分类问题决  
} .  
N
N
δ  
1
δ
0
理论应用数据处理面  
x  
δ  
( x)  
类  
, ,  
利用个域 集划分分  
:
定义为  
用不可能数据样  
N ( ( x) ) = | { y| y  
δ
0
( x) y N } |  
0
( 4)  
( 5)  
δ  
径  
N ( ( x) ) = | { y| y  
δ
1
( x) y N } |  
1
δ  
本文理论 提出据  
22, : ,  
根据要引  
( TWD-IDOS  
) ,  
先 利用策  
法  
f( x) , ,  
为  
入实数  
理论划分成正域域  
, ; ,  
状态值 其大小程度 其次 引入一  
, ,  
其次 正域正域中的处  
α β 定义正域 域和中的对  
,  
次 对域和中的小本分进行过采  
; ,  
次 根据状态值值将对象划  
:
处理 中小进行  
SMOTE  
然  
,  
到正域 域和规  
;
后对新合成的进行一种  
,  
本文模型模型 三  
域采处理 后得到采的  
模型定义  
3
U
给定非空本集合  
, ,  
本集 通数据类  
定义  
= { x x x } x U,  
 ∈ 给定数  
n
f ( x) ,  
域  
问题  
1
2
:
下  
2
相关  
( P)  
( B)  
( N)  
f( x)  
x POS( X)  
α ∈  
果  
( 6)  
2. 1  
f( x) x BND( X)  
α ∈  
邻域模型  
β  
18]  
1988 Lin T Y  
提出模型 模型过  
f( x)  
x NEG( X)  
β ∈  
果  

全部评论(0)

暂无评论