推荐星级:
- 1
- 2
- 3
- 4
- 5
属性约简准则与约简信息损失的研究
资料介绍
属性约简是粗糙集的重要研究内容,信息熵是度量信息量的方法.在研究绝对约简和几种相对约简的基础上,归纳出属性约简的一般准则.定义了基于条件属性信息熵的属性约简和基于联合熵的属性约简,研究了几种属性约简与绝对约简之间的关系.定义了基于条件属性信息熵的约简信息损失,澄清了属性约简不损失信息的含糊观念,指出了属性约简只是在约简准则意义下不损失信息,在信息熵意义下可能损失信息.为进一步研究粗糙集、粒计算中属性约简与分类夯实了信息论基础.
部分文件列表
文件名 | 大小 |
属性约简准则与约简信息损失的研究.pdf | 1M |
部分页面预览
(完整内容请下载后查看)2
Vol. 45 No. 2
Feb. 2017
第
期
电
子
学
报
2017
2
ACTA ELECTRONICA SINICA
年
月
属性约简准则与约简信息损失的研究
1,2,3
1
3
1
, , ,
薛欢欢 苗夺谦 卢克文
邓大勇
( 1.
,
浙江师范大学数理与信息工程学院 浙江金华
321004; 2.
,
浙江师范大学行知学院 浙江金华
321004;
3.
,
同济大学电子与信息工程学院 上海
201804)
:
, .
属性约简是粗糙集的重要研究内容 信息熵是度量信息量的方法 在研究绝对约简和几种相对约简的
摘
要
, . ,
基础上 归纳出属性约简的一般准则 定义了基于条件属性信息熵的属性约简和基于联合熵的属性约简 研究了几种
. ,
属性约简与绝对约简之间的关系 定义了基于条件属性信息熵的约简信息损失 澄清了属性约简不损失信息的含糊观
, , . 、
念 指出了属性约简只是在约简准则意义下不损失信息 在信息熵意义下可能损失信息 为进一步研究粗糙集 粒计算
.
中属性约简与分类夯实了信息论基础
:
;
;
;
;
关键词
中图分类号
URL: http: / /www. ejournal. org. cn
粗糙集 属性约简 信息熵 联合熵 信息损失
:
TP18
:
A
: 0372-2112 ( 2017) 02-0401-07
DOI: 10. 3969 /j. issn. 0372-2112. 2017. 02. 019
文献标识码
文章编号
电子学报
Study on Criteria of Attribute Reduction and
Information Loss of Attribute Reduction
1,2,3
1
3
1
DENG Da-yong
,XUE Huan-huan ,MIAO Duo-qian ,LU Ke-wen
( 1. College of Mathematics,Physics and Information Engineering,Zhejiang Normal University,Jinhua,Zhejiang 321004,China;
2. Xingzhi College,Zhejiang Normal University,Jinhua,Zhejiang 321004,China;
3. School of Electronics and Information Engineering,Tongji University,Shanghai 201804,China)
Abstract: Attribute reduction is one of important topics in rough set theory,and information entropy is an index of
measuring the amount of information. After investigating absolute attribute reduct and several kinds of relatively attribute re-
ducts,a general criterion of reducts is induced in rough set theory. With this criterion of reducts,attribute reduct based on in-
formation entropy and attribute reduct based on joint entropy are defined. The relationships among attribute reducts and abso-
lute attribute reduct are investigated. Moreover,information loss based on information entropy for attribute reducts is de-
fined,which can measure information loss after attribute reduction has been conducted. The old concepts that attribute reduc-
tion can not lose information are improved,and attribute reduction and classification can be further investigated from infor-
mation loss and information entropy.
Key words: rough sets; attribute reduction; information entropy; joint entropy; information loss
[4 ~ 7]
[10]
.
、
、
、
简 研究者们提出了上 下近似
隶属度
信息
等不确定性度
量来刻画和描述数据的不确定性 其中很大一部分不
1
引言
[11]
[12,13]
[14,15]
、
条件熵
、 、
粗糙熵 模糊熵
熵
[1,2]
,
是人类智能处理问题的思维方式 也是
粒计算
,
.
处理不确定性问题的方法 粒计算的主要方法有模糊
, :
确定性指标被用来作为条件属性约简的准则 例如 条
[3]
[4 ~ 7]
[8]
[9]
、
粗糙集
、 .
商空间 和云模型 等 粗糙集理
集
、 ,
件熵 互信息等 由此衍生出了各种各样关于属性约简
[4 ~ 7]
[11 ~ 23]
、 、
是一种处理不精确 不完全 含糊数据的有效数
论
.
的研究
几乎所有的条件属性约简都笼统地宣称
,
.
学工具 是数据挖掘和分类的重要方法
粗糙集最重要的应用在于不确定性分析和属性约
,
保持分类不变或信息不变 人们也非常认同这个观点
.
、
但是条件属性约简是否真的保持信息不变 信息无损
: 2016-03-21;
: 2016-05-06; :
责任编辑 蓝红杰
收稿日期
修改日期
:
基金项目 国家自然科学基金
( No. 61572442,No. 61203247,No. 61273304,No. 61573259,No. 61472166) ;
( No. LY15F020012) ;
浙
浙江省自然科学基金
( No. Q13F020006)
江省自然科学青年基金
402
2017
年
电
子
学
报
?
?
Y ( i = 1,2,…M)
i
.
是等价类 决策系统
DS = ( U,A,d)
失
能够作为属性约简准则的指标满足什么条件
其
中
?
他形式的信息熵是否可以作为属性约简的准则 这些
的正区域定义为
POS ( d) =
A
、 , 、
问题对粗糙集 粒计算 乃至数据挖掘 人工智能来说
,
A( Y ) .
∪
i
Y
U/{ d}
∈
i
.
都非常重要
1
DS = ( U,A,d) ,
中 称决策属性
定义
在决策系统
,
对于条件属性约简 的信息 损失 长 期以来存 在
d
h( 0
h 1) A,
≤ ≤ 依赖条件属性集 其中
,
以程度
, ,
的误区和盲点 以及属性约简的一些本源问题 本文
POS ( d)
A
h = ( DS,A,{ d} ) =
γ
,
、 、 , 、
结合粒计算 粗糙集 信息论的观点 以绝对约简 基
U
、
于正区域的相对约简 基于属性依赖度的相对约简
、
·
.
符号
表示集合的势
、
基于互信息的相对约简 基于条件熵的相对约简为
DS = ( U,A,d) ,( x) = { ( d,d( y) ) :
中
在决策系统
, .
例 归纳出属性约简准则所满足的条件 定义了基于
y
[x] x U} .
∈ ∧ ∈
A
x u
若对于任意的 ∈ 都有
( x) = 1,
条件属性信息熵的属性约简和基于联合熵的属性约
DS = ( U,A,d)
,
称为一致的 否则称为不
则决策系统
, ,
简 并分析其性质 证明了基于条件属性信息熵的属
.
一致
2. 2
性约简等价于绝对约简以及在一致的决策表中基于
信息熵
给定一个决策系统
.
联合熵的属性约简等价于绝对约简 以条件属性信
DS = ( U,A,d) , A { d}
设 和 在论
息熵为信息量的度量指标定义了属性约简的信息损
U
X Y,
和 其中
X = U/A = { X ,
1
域
上导出的划分分别为
,
失 指出了各种类型的属性约简仅仅不存在该约简
| X |
i
X ,…X } ,Y = U/{ d} = { Y ,Y ,…Y } ,p( X ) =
2
,
2
N
1
M
i
,
准则下的信息损失 但是可能存在条件属性信息熵
| U|
,
意义下的信息损失 从而澄清了人们长期以来存在
| Y |
j
| X Y |
∩
j
i
p( Y ) =
j
,p ( X ,Y )
j
=
,p ( Y | X ) =
j
i
i
.
| U|
| U|
的误区和盲点
| X Y |
∩
j
i
2
,i = 1,2,…N,j = 1,2,…M. A { d}
和 的信息熵
基础知识
| X |
i
[4 ~ 6]
[11 ~ 15,24]
:
本节简单介绍粗糙集
与信息熵
的相关
分别定义为
N
.
基本知识
2. 1
H( DS,A) = -
p( X ) lbp( X ) ,
i
∑
i
i = 1
粗糙集
M
IS = ( U,A) ,U
中
,A U
是论域 是论域 上
信息系统
H( DS,{ d} ) = -
p( Y ) lbp( Y ) .
j
∑
j
j = 1
.
的条件属性集 对于任意条件属性
a
A
a:
都存在函数
∈
{ d}
A
相对于 的条件熵定义为
:
U
V ,V a . U
为属性 的值域
α
、
中每个元素称为个体 对
→
α
N
M
.
象或行
H( DS,{ d} |A) = -
p( X )
i
p( Y |X ) lbp( Y |X ) .
j
∑
∑
j
i
i
i =1
j =1
B
A
x U
和任何 ∈ 都对应着如下的信息
对于任意
{ d}
A
:
相对于 的互信息定义为
I( DS,{ d} | A) = H( DS,{ d} ) - H( DS,{ d} | A) .
{ d}
:
函数
Inf ( x) = { ( a,a( x) ) : a B} .
∈
B
A
:
的联合熵定义为
与
B -
( )
不分明关系 或称为不可区分关系 定义为
N
M
H( DS,A,{ d} ) = -
p( X ,Y ) lbp( X ,Y ) .
i
IND( B) = { ( x,y) : Inf ( x) = Inf ( y) } .
B
∑∑
i
j
j
B
i = 1 j = 1
IND( B)
2
x,y
B
都不能由 的任
任何满足
的
个元素
3
属性约简
,[x]
何子集区分
x
表示由 引导的
IND( B)
.
等价类
B
IS = ( U,A) ,B A ,X U . 、
中 上 下近似
信息系统
与边界区域的个体表示为
4
本节我们讨论粗糙集理论中的绝对约简与 种相
:
.
对约简
珔 珔
B( X) = B( IS,X) = { x U: [x]
∈
X
∩ ≠
} ,
:
B
绝对约简定义如下
[6,25,26]
B( X) = B( IS,X) = { x U: [x] X} ,
∈
B
2
IS = ( U,A) ,B
A
称
定义
DS
给定信息系统
,iff B A :
满足下列条件
珔
BN( X) = B( IS,X) - B( IS,X) .
为
的绝对约简
、
上 下近似及边界区域的信息粒表示为
:
( 1)
( 2)
x
对于任意的 ∈ 都有
U, [x] =[x] ;
B
A
珔 珔
B( X) = B( IS,X) = { [x] U: [x]
X
∩ ≠
} ,
∪
S
B,
存 在
x
U
[x]
使 得 ≠
S
B
B
对于 任 意的
∈
B( X) = B( IS,X) = { [x] U: [x] X} ,
B
∪
[x] .
A
B
珔
BN( X) = B( IS,X) - B( IS,X) .
:
基于正区域的相对约简定义为
[4 ~ 7]
DS = ( U,A,d) ,{ d} A =
中 ∩
,
决策
在决策系统
3
DS = ( U,A,d) ,B
A
定义
DS
给定决策系统
d U
属性 把论域 划分为块
,U/{ d} = { Y ,Y ,…Y } ,
M
其
,iff B
A
满足下列
是
的基于正区域的相对约简
1
2
全部评论(0)