推荐星级：

基于三支决策的不平衡数据过采样方法

更新时间：2019-12-24 04:15:47 大小：1M 上传用户：守着阳光1985 查看TA发布的资源 标签：不平衡数据分类 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法.

部分文件列表

文件名	大小
基于三支决策的不平衡数据过采样方法.pdf	1M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

Vol． 46 No． 1

Jan． 2018

第

期

电

子

学

报

2018

ACTA ELECTRONICA SINICA

年

月

基于三支决策的不平衡数据过采样方法

，，

胡峰王蕾周耀

(

( ) ， 400065)

计算智能重庆市重点实验室重庆邮电大学重庆

．，

采样是解决不平衡数据分类问题的一个有效途径文中结合三支决策理论根据样本分布将样本划分

摘

要

: 、 ; ，，

成三个区域正域边界域和负域在此基础上分别对边界域和负域中的小类样本进行不同的过采样处理提出了一

( TWD-IDOS

) ．，

算法实验结果表明在

C4. 5、KNN

CART ，

等分类器上文

种基于三支决策的不平衡数据过采样算法

和

，

中提出的算法能有效解决不平衡数据的二分类问题在

Recall、F-value、AUC

．

等指标上优于文献中的过采样算法

;

; SMOTE

关键词

中图分类号

URL: http: / /www． ejournal． org． cn

三支决策邻域粗糙集边界采样不平衡数据

TP39

: 0372-2112 ( 2018) 01-0135-10

DOI: 10． 3969 /j． issn． 0372-2112． 2018． 01． 019

文献标识码

文章编号

电子学报

An Oversampling Method for Imbalance Data Based on

Three-Way Decision Model

HU Feng，WANG Lei，ZHOU Yao

( Chongqing Key Laboratory of Computational Intelligence ( Chongqing University of Posts and Telecommunications) ，Chongqing 400065，China)

Abstract: Sampling is an effective way to solve the problem of unbalanced data classification． According to the distri-

bution of samples，we employ the three-way decision model to divide the universe into three parts: positive region，boundary

region and negative region． After that，we oversample the minority class samples in boundary region and negative region re-

spectively． Then，a novel oversampling algorithm for imbalance data based on three-way decision model，namely TWD-

IDOS，is developed． The experimental results show that the proposed method can effectively solve the two-class classification

problems of imbalanced data and has a better performance in such measures ( Recall、F-value、AUC) on C45，KNN and

CART classifiers than other oversampling methods．

Key words: three-way decision; neighborhood rough set; boundary sampling; imbalanced data; SMOTE

过采样的本质就是通过各种手段增加小类样本数

引言

，，

目最简单的方法就是随机复制小类样本但这种采样

［1］

不平衡数据集的分类问题是机器学习和模式识别

．

，

因此许多学者提出了一些更高效

容易导致过拟合

［2］

，，

领域中的一个热点问题迄今为止针对此问题的解决

．

的过采样方法最具代表性的则是

SMOTE

，

算法该算

: ，

方法主要分为两大类一类是数据预处理方法目的是

Chawla

法是

等人提出的一种简单有效的智能过采样方

［3］

，

降低类别之间的不平衡性在此层面上主要的方法是

，

．

，

法能够有效避免分类器的过拟合现象

但是

算法对每个小类样本的采样存在一定的盲目

性导致有些合成的小类样本影响大类样本的泛化空

SMOTE

， ( )

重采样增加小类样本的数目过采样或减少大类样

SMOTE

，

( ) ; ，

本的数目欠采样另一类则是在分类算法上着手提

，

．

间从而降低其分类效果针对

在过采样过程中

出新的有效的分类算法或改进现有的分类算法以适应

，．

存在的问题许多学者提出了不同的改进方法比如

，、

对不平衡数据分类的目的主要包括单类学习集成学

［4］

Borderline-SMOTE

，，

只对边界点采样在一定程

方法

、．

习代价敏感学习等方法但是它们没有改变类别之间

［5］

，

度上避免了合成冗余样本

; ASMOTE

，

考虑了大

方法

，．

的不平衡性限制了算法的广泛应用所以在实际应用

，

类样本的分布信息避免了新合成的小类样本落在大

，

场景中采用更多的是数据采样的方法

．

: 2016-05-10;

: 2016-10-31; :

责任编辑孙瑶

收稿日期

修回日期

基金项目国家自然科学基金

( No． 61309014，No． 61379114，No． 61472056) ;

( No． 15XJA630003) ;

重庆市基础与前沿研究计

教育部人文社科规划

( No． KJ1500416)

重庆市教委科学技术研究

( No． cstc2013jcyjA40063，No． cstc2014jcyjA40049) ;

划

136

2018

年

电

子

学

报

［6］

; SMOTE-RSB*

，

空间点的邻域来粒化论域空间将邻域理解为基本信

类样本的近邻区域

方法

结合了粗糙

，

息粒子用来描述空间中的其他概念

．

，，

集理论是一种混合采样方法通过筛选把影响大类样

［19］

U，B C，x



，

本泛化空间的新合成的小类样本剔除从而保证了大

定义

给定任意

∈

在属性子集

［7］

( x )

定义为

上的邻域 δ

; KSMOTE

SMOTE

，

算法进行扩展

类样本的识别率

对

( x ) = { x | x U， ( x ，x )

∈ Δ

}

( 1)

≤δ

，

通过在特征空间中合成新样本以解决不同空间处理

．

这里 δ 为度量函数定义

x ，x

为两个维空间样

，

训练样本所带来的不一致问题提高所合成样本的质

［8］

A = { a ，a ，…，a } ，f( x，a )

x a ，

表示在属性上值则

本

; OSLDD SMOTE

量

通过单边选择链遴选出处于分类

Minkowsky

距离可定义为

两个样本的

，

边界的小类样本根据这些样本的动态分布密度生成

1 /p

，．，

新样本有效提高了小类样本的分类准确率总之对不

( x ，x ) =

( 2)

(

)

| f( x ，a ) － f( x ，a ) |

∑

i = 1

，

平衡数据的处理有效的过采样方法既要增加小类样

p = 2

，

时即欧拉距离

．

当

，

本的分布信息又要尽可能的避免小类样本对大类样

，

欧拉距离只适用计算连续型属性无法计算分类

．

本决策空间的影响

三支决策理论是由加拿大学者

［20］

．

型属性对分类型属性的计算

，Stanfill

Waltz

和

提出

在分类型属性的

Yao

，

首次提出主要

、M

域

Value Dierence Metric．

x ，x

假设样本

，

域

思想就是将整体划分为三个部分分别称为

V ，V ，

两个值

他们之间的距离定义为

．，

域分别对这三个域采用不同的处理方法为复杂

和

．，

问题的求解提供了一种有效的策略与方法近年来众

f( x ，V ) － f( x ，V ) =

( 3)

－

∑

i = 1

多学者都在思考怎样将三支决策思想转换为一个理论

，C

则为其中类

是所有样本中该属性值为

的个数

、、．

系统信息处理模式和计算方法关于三支决策理论的

，C

别为个数

则为其中类别为个数 μ 为常数通常是

2. 2

是所有样本中该属性值为的个数

［9］

， :

应用研究获得了一定的进展如王磊等

，

提出了基

．

，

于主题特征与三支决策理论相融合的多标记情感分类

邻域三支决策模型

［10］

; Li

方法

别方法

支决策方法

等

提出了基于三支决策的代价敏感人脸识

Yao

在粗糙集和决策粗糙集理论的基础上提出了

［11］

; Liu

logistics

等

提出了基于

回归的多分类三

，

三支决策理论该理论为粗糙集的三个域提供了合理

［12］

; Yu

等

针对聚类学习中类与类之间的重

．

的语义解释该理论是一种信息不确定或不完整的条

，

叠问题提出了基于三支决策的重叠聚类方法

; Liu

． Yao

件下进行决策的方法

支决策问题的形式化定义

［21］

在文献中给出了有关三

［13］

［14］

; Liu

等

将三支决策理论应用在语义分析上

等

将

．

［15］

; Chen

三支决策理论应用在不完备信息系统

; Liu

支决策应用在邻域系统用来做约减

等

将三

U，

定义

给定实数空间上的非空有限样本集合

( x) = { y | y U， ( x，y)

≤

［16］

［17］

Zhou

和

 ∈

U，x

的邻域可表示为 δ

( x)

内的大类样本类别和小

∈

，

结合决策粗糙集理论给出了一种多分类问题的解决

} ．

分别表示 δ

令

和

．

途径若将三支决策理论应用到不平衡数据处理方面

，

， x

类样本类别则的邻域 δ

( x)

内大类样本个数和小类

，，

利用它的三个域将训练集划分三个部分对每一部分

样本个数可分别定义为

，

采用不同的采样方法有可能是一条不平衡数据采样

N ( ( x) ) = | { y| y

( x) ，y N } |

∈

( 4)

( 5)

∈δ

．

的有效途径

N ( ( x) ) = | { y| y

( x) ，y N } |

∈

∈δ

，

本文结合三支决策理论提出了一种不平衡数据

［22］， : ，

根据文献为了实现三支决策首先需要引

( TWD-IDOS

) ．，

算法首先利用三支决策

的过采样算法

f( x) ，，

也称为决策函数它的值称为

入实体的评价函数

、

理论将样本总体划分成正域样本边界域样本和负域

， ; ，

决策状态值其大小反映实体的好坏程度其次引入一

．，，

样本其次保留正域样本对正域中的样本不做采样处

、

对阈值 α 和 β 来定义正域边界域和负域中的事件对

．，

理再次对边界域和负域中的小类样本分别进行过采

; ，

象再次根据决策状态值和阈值将论域中事件对象划

样处理 ①对边界域中小类样本进行

SMOTE

，

过采样然

、，

分到正域边界域和负域中构造出相应的三支决策规

;

后对新合成的样本筛选 ②对负域小类样本进行一种

．，

则本文结合邻域模型与三支决策模型给出了邻域三

，

有别于边界域采样的过采样处理最后得到采样后的

．

支决策模型的相关定义

给定实数空间上的非空有限样本集合

，，

新样本集通过采样能有效解决不平衡数据的二分类

定义

= { x ，x ，…，x } ， x U，

 ∈ 给定目标函数

f ( x) ，

则邻域

．

问题

三支决策如下

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic小能手打赏5.00元 1天前

资料：清华大学：一人公司发展研究报告2.0
21ic小能手打赏5.00元 3天前

资料：自己编写的屏幕截图工具软件
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏360.00元 3天前

用户：mulanhk
21ic下载打赏230.00元 3天前

用户：江岚
21ic下载打赏230.00元 3天前

用户：潇潇江南
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏160.00元 3天前

用户：lanmukk
21ic下载打赏130.00元 3天前

用户：jh03551
21ic下载打赏110.00元 3天前

用户：liqiang9090
21ic下载打赏110.00元 3天前

用户：jh0355
21ic小能手打赏5.00元 3天前

资料：基于51单片机的宠物喂食器
21ic小能手打赏5.00元 3天前

资料：51单片机电子琴设计（程序＋AD版PCB和原理图）
21ic小能手打赏5.00元 3天前

资料：单片机的智能火灾报警系统设计（全套）
21ic小能手打赏5.00元 3天前

资料：51单片机霍尔传感器测速Proteus仿真
21ic下载打赏20.00元 3天前

用户：w178191520
21ic下载打赏30.00元 3天前

用户：sun2152
21ic下载打赏30.00元 3天前

用户：xuzhen1
21ic下载打赏20.00元 3天前

用户：w993263495
21ic下载打赏15.00元 3天前

用户：kk1957135547

21ic下载打赏15.00元 3天前

用户：eaglexiong
21ic下载打赏15.00元 3天前

用户：w1966891335
21ic下载打赏25.00元 3天前

用户：烟雨
21ic下载打赏75.00元 3天前

用户：有理想666
21ic下载打赏10.00元 3天前

用户：x15580286248
21ic下载打赏40.00元 3天前

用户：xzxbybd
21ic下载打赏10.00元 3天前

用户：kyozhangyihui
21ic下载打赏10.00元 3天前

用户：sfgplj123
21ic下载打赏10.00元 3天前

用户：dadengpao
21ic小能手打赏10.00元 3天前

资料：自己编写的CRC校验工具
21ic小能手打赏5.00元 3天前

资料：STM32单片机控制4个温度采集
21ic小能手打赏10.00元 3天前

资料：OpenClaw发展研究1.0报告
21ic小能手打赏10.00元 3天前

资料：STM32的智能家居系统设计（全套）
shenzhenliugang 打赏5.00元 3天前

资料：高通蓝牙芯片QCC3084详细规格书datasheet
21ic小能手打赏5.00元 3天前

资料：基于51单片机空气质量检测设计全套资料
21ic小能手打赏5.00元 3天前

资料：stm32单片机电子秤设计（全套）
21ic小能手打赏10.00元 3天前

资料：STM32的智能扫地车(超级详细全套课设)
21ic小能手打赏5.00元 3天前

资料：基于51单片机的RFID门禁（全套）
21ic小能手打赏5.00元 3天前

资料：基于51单片机的火灾报警器项目设计（全套）

基于三支决策的不平衡数据过采样方法

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页