推荐星级:
- 1
- 2
- 3
- 4
- 5
基于三支决策的不平衡数据过采样方法
资料介绍
采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法.
部分文件列表
文件名 | 大小 |
基于三支决策的不平衡数据过采样方法.pdf | 1M |
部分页面预览
(完整内容请下载后查看)1
Vol. 46 No. 1
Jan. 2018
第
期
电
子
学
报
2018
1
ACTA ELECTRONICA SINICA
年
月
基于三支决策的不平衡数据过采样方法
, ,
胡 峰 王 蕾 周 耀
(
( ) , 400065)
计算智能重庆市重点实验室 重庆邮电大学 重庆
:
. ,
采样是解决不平衡数据分类问题的一个有效途径 文中结合三支决策理论 根据样本分布将样本划分
摘
要
: 、 ; , ,
成三个区域 正域 边界域和负域 在此基础上 分别对边界域和负域中的小类样本进行不同的过采样处理 提出了一
( TWD-IDOS
) . ,
算法 实验结果表明 在
C4. 5、KNN
CART ,
等分类器上 文
种基于三支决策的不平衡数据过采样算法
和
,
中提出的算法能有效解决不平衡数据的二分类问题 在
Recall、F-value、AUC
.
等指标上优于文献中的过采样算法
:
;
;
;
; SMOTE
关键词
中图分类号
URL: http: / /www. ejournal. org. cn
三支决策 邻域粗糙集 边界采样 不平衡数据
:
TP39
:
A
: 0372-2112 ( 2018) 01-0135-10
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 01. 019
文献标识码
文章编号
电子学报
An Oversampling Method for Imbalance Data Based on
Three-Way Decision Model
HU Feng,WANG Lei,ZHOU Yao
( Chongqing Key Laboratory of Computational Intelligence ( Chongqing University of Posts and Telecommunications) ,Chongqing 400065,China)
Abstract: Sampling is an effective way to solve the problem of unbalanced data classification. According to the distri-
bution of samples,we employ the three-way decision model to divide the universe into three parts: positive region,boundary
region and negative region. After that,we oversample the minority class samples in boundary region and negative region re-
spectively. Then,a novel oversampling algorithm for imbalance data based on three-way decision model,namely TWD-
IDOS,is developed. The experimental results show that the proposed method can effectively solve the two-class classification
problems of imbalanced data and has a better performance in such measures ( Recall、F-value、AUC) on C45,KNN and
CART classifiers than other oversampling methods.
Key words: three-way decision; neighborhood rough set; boundary sampling; imbalanced data; SMOTE
过采样的本质就是通过各种手段增加小类样本数
1
引言
, ,
目 最简单的方法就是随机复制小类样本 但这种采样
[1]
不平衡数据集的分类问题是机器学习和模式识别
.
,
因此 许多学者提出了一些更高效
容易导致过拟合
[2]
, ,
领域中的一个热点问题 迄今为止 针对此问题的解决
.
的过采样方法 最具代表性的则是
SMOTE
,
算法 该算
: ,
方法主要分为两大类 一类是数据预处理方法 目的是
Chawla
法是
等人提出的一种简单有效的智能过采样方
[3]
,
降低类别之间的不平衡性 在此层面上主要的方法是
,
.
,
法 能 够 有 效 避 免 分 类 器 的 过 拟 合 现 象
但 是
算法对每个小类样本的采样存在一定的盲目
性 导致有些合成的小类样本影响大类样本的泛化空
SMOTE
, ( )
重采样 增加小类样本的数目 过采样 或减少大类样
SMOTE
,
( ) ; ,
本的数目 欠采样 另一类则是在分类算法上着手 提
,
.
间 从而降低其分类效果 针对
在过采样过程中
出新的有效的分类算法或改进现有的分类算法以适应
, .
存在的问题 许多学者提出了不同的改进方法 比如
:
, 、
对不平衡数据分类的目的 主要包括单类学习 集成学
[4]
Borderline-SMOTE
, ,
只对边界点采样 在一定程
方法
、 .
习 代价敏感学习等方法 但是它们没有改变类别之间
[5]
,
度上 避免了合成冗余样本
; ASMOTE
,
考虑了大
方法
, .
的不平衡性 限制了算法的广泛应用 所以在实际应用
,
类样本的分布信息 避免了新合成的小类样本落在大
,
场景中 采用更多的是数据采样的方法
.
: 2016-05-10;
: 2016-10-31; :
责任编辑 孙瑶
收稿日期
修回日期
:
基金项目 国家自然科学基金
( No. 61309014,No. 61379114,No. 61472056) ;
( No. 15XJA630003) ;
重庆市基础与前沿研究计
教育部人文社科规划
( No. KJ1500416)
重庆市教委科学技术研究
( No. cstc2013jcyjA40063,No. cstc2014jcyjA40049) ;
划
136
2018
年
电
子
学
报
[6]
; SMOTE-RSB*
,
,
空间点的邻域来粒化论域空间 将邻域理解为基本信
类样本的近邻区域
方法
结合了粗糙
,
息粒子 用来描述空间中的其他概念
.
, ,
集理论是一种混合采样方法 通过筛选 把影响大类样
[19]
1
x
U,B C,x
,
本泛化空间的新合成的小类样本剔除 从而保证了大
定义
给定任意
∈
在属性子集
i
i
[7]
B
( x )
i
:
定义为
上的邻域 δ
; KSMOTE
SMOTE
,
算法进行扩展
类样本的识别率
对
B
( x ) = { x | x U, ( x ,x )
∈ Δ
j
}
( 1)
δ
≤δ
j
,
通过在特征空间中合成新样本 以解决不同空间处理
B
i
j
B
i
.
这里 δ 为度量函数 定义
x ,x
1
N
为两个 维空间样
,
训练样本所带来的不一致问题 提高所合成样本的质
2
[8]
A = { a ,a ,…,a } ,f( x,a )
N
x a ,
表示 在属性 上值 则
i
本
; OSLDD SMOTE
量
通过单边选择链遴选出处于分类
1
2
i
Minkowsky
:
距离可定义为
两个样本的
,
边界的小类样本 根据这些样本的动态分布密度生成
N
1 /p
, . ,
新样本 有效提高了小类样本的分类准确率 总之 对不
p
( x ,x ) =
2
( 2)
Δ
(
)
| f( x ,a ) - f( x ,a ) |
2
p
1
∑
1
i
i
i = 1
,
平衡数据的处理 有效的过采样方法既要增加小类样
p = 2
,
时 即欧拉距离
.
当
,
本的分布信息 又要尽可能的避免小类样本对大类样
,
欧拉距离只适用计算连续型属性 无法计算分类
.
本决策空间的影响
三支决策理论是由加拿大学者
[20]
.
型属性 对分类型属性的计算
,Stanfill
Waltz
和
提出
在分类型属性的
2
Yao
,
首次提出 主要
、M
域
Value Dierence Metric.
x ,x
1
假设样本
,
L
域
思想就是将整体划分为三个部分 分别称为
V ,V ,
1
:
两个值
他们之间的距离定义为
2
R
. ,
域 分别对这三个域采用不同的处理方法 为复杂
和
n
μ
C
C
1i
2i
. ,
问题的求解提供了一种有效的策略与方法 近年来 众
f( x ,V ) - f( x ,V ) =
2
( 3)
-
1
1
2
∑
i = 1
C
C
1
2
多学者都在思考怎样将三支决策思想转换为一个理论
C
V
,C
则为其中类
1i
是所有样本中该属性值为
的个数
1
1
、 、 .
系统 信息处理模式 和计算方法 关于三支决策理论的
i
,C
V
,C
别为 个数
则为其中类别为 个数 μ 为常数 通常是
2. 2
是所有样本中该属性值为 的个数
[9]
2
2
2i
, :
应用研究获得了一定的进展 如 王磊等
,
提出了基
i
.
,
1.
于主题特征与三支决策理论相融合的多标记情感分类
邻域三支决策模型
[10]
; Li
方法
别方法
支决策方法
等
提出了基于三支决策的代价敏感人脸识
Yao
在粗糙集和决策粗糙集理论的基础上提出了
[11]
; Liu
logistics
等
提出了基于
回归的多分类三
,
三支决策理论 该理论为粗糙集的三个域提供了合理
[12]
; Yu
等
针对聚类学习中类与类之间的重
.
的语义解释 该理论是一种信息不确定或不完整的条
,
叠问题 提 出 了 基 于 三 支 决 策 的 重 叠 聚 类 方 法
; Liu
. Yao
件下进行决策的方法
支决策问题的形式化定义
[21]
在文献 中给出了有关三
[13]
[14]
; Liu
等
将三支决策理论应用在语义分析上
等
将
.
[15]
; Chen
三支决策理论应用在不完备信息系统
; Liu
支决策应用在邻域系统用来做约减
等
将三
2
U,
定义
给定实数空间上的非空有限样本集合
( x) = { y | y U, ( x,y)
≤
[16]
[17]
Zhou
和
x
∈
U,x
的邻域可表示为 δ
( x)
内的大类样本类别和小
∈
Δ
,
结合决策粗糙集理论 给出了一种多分类问题的解决
} .
N
N
分别表示 δ
1
δ
令
和
0
.
途径 若将三支决策理论应用到不平衡数据处理方面
,
, x
类样本类别 则 的邻域 δ
( x)
内大类样本个数和小类
, ,
利用它的三个域 将训练集划分三个部分 对每一部分
:
样本个数可分别定义为
,
采用不同的采样方法 有可能是一条不平衡数据采样
N ( ( x) ) = | { y| y
δ
0
( x) ,y N } |
∈
0
( 4)
( 5)
∈δ
.
的有效途径
N ( ( x) ) = | { y| y
δ
1
( x) ,y N } |
∈
1
∈δ
,
本文结合三支决策理论 提出了一种不平衡数据
[22], : ,
根据文献 为了实现三支决策 首先 需要引
( TWD-IDOS
) . ,
算法 首先 利用三支决策
的过采样算法
f( x) , ,
也称为决策函数 它的值称为
入实体的评价函数
、
理论将样本总体划分成正域样本 边界域样本和负域
, ; ,
决策状态值 其大小反映实体的好坏程度 其次 引入一
. , ,
样本 其次 保留正域样本 对正域中的样本不做采样处
、
对阈值 α 和 β 来定义正域 边界域和负域中的事件对
. ,
理 再次 对边界域和负域中的小类样本分别进行过采
; ,
象 再次 根据决策状态值和阈值将论域中事件对象划
:
样处理 ①对边界域中小类样本进行
SMOTE
,
过采样 然
、 ,
分到正域 边界域和负域中 构造出相应的三支决策规
;
后对新合成的样本筛选 ②对负域小类样本进行一种
. ,
则 本文结合邻域模型与三支决策模型 给出了邻域三
,
有别于边界域采样的过采样处理 最后得到采样后的
.
支决策模型的相关定义
3
U
给定实数空间上的非空有限样本集合
, ,
新样本集 通过采样 能有效解决不平衡数据的二分类
定义
= { x ,x ,…,x } , x U,
∈ 给定目标函数
n
f ( x) ,
则邻域
.
问题
1
2
:
三支决策如下
2
相关概念
( P)
( B)
( N)
f( x)
, x POS( X)
≥α 则 ∈
如果
( 6)
2. 1
< f( x) < , x BND( X)
α 则 ∈
邻域模型
如果 β
[18]
1988 ,Lin T Y
年
,
提出了邻域模型 该模型通过
f( x)
, x NEG( X)
≤β 则 ∈
如果
全部评论(0)