推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

自动确定聚类个数的模糊聚类算法

更新时间:2019-12-24 01:40:53 大小:1M 上传用户:zhiyao6查看TA发布的资源 标签:模糊聚类算法 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

本文通过集成多次FCM(Fuzzy C-Means)聚类结果以及采用软化分方式,提出一种新的自动确定聚类个数的模糊聚类算法.本算法首先利用不同的聚类数目对数据进行FCM聚类,然后充分利用多次FCM聚类得到的隶属度信息构建一个累积邻接矩阵,最后采用迭代方式对累积邻接矩阵进行图切分以获取最终聚类结果.大量的仿真实验表明,相对现有集成聚类方法,本文方法能够有效减少FCM的聚类次数,并且在图切分过程中的迭代次数为现有方法的1/2左右.


部分文件列表

文件名 大小
自动确定聚类个数的模糊聚类算法.pdf 1M

部分页面预览

(完整内容请下载后查看)
3
Vol. 45 No. 3  
Mar. 2017  
2017  
ACTA ELECTRONICA SINICA  
3
自动确定聚类个数的模糊聚类算法  
12  
12  
3
4
陈海鹏 申铉京 龙建武 吕颖达  
( 1.  
130012; 2.  
130012;  
吉林大学计算机科学与技术学院 吉林长春  
吉林大学符号计算与知识工程教育部重点实验室 吉林长春  
400054; 4. 130012)  
吉林大学公共计算机教学与研究中心 吉林长春  
3.  
重庆理工大学计算机科学与工程学院 重庆  
:
FCM( Fuzzy CMeans)  
本文通过集成多次  
聚类结果以及采用软化分方式 提出一种新的自动确定聚类  
.
FCM FCM  
个数的模糊聚类算法 本算法首先利用不同的聚类数目对数据进行  
聚类 然后充分利用多次  
属度信息构建一个累积邻接矩阵 最后采用迭代方式对累积邻接矩阵进行图切分以获取最终聚类结果 大量的仿真实  
FCM  
聚类得到的隶  
.
的聚类次数 并且在图切分过程中的迭代次数为现有方  
验表明 相对现有集成聚类方法 本文方法能够有效减少  
1 /2  
.
法的  
左右  
:
; FCM ;  
算法 图切分  
关键词  
模糊聚类  
:
TP391  
:
A
:
03722112 ( 2017) 03068708  
DOI: 10. 3969 /j. issn. 03722112. 2017. 03. 028  
中图分类号  
文献标识码  
文章编号  
URL: http: / /www. ejournal. org. cn  
电子学报  
Fuzzy Clustering Algorithm for Automatic Identification of Clusters  
12  
12  
3
4
CHEN Haipeng SHEN Xuanjing LONG Jianwu LÜ Yingda  
( 1. College of Computer Science and TechnologyJilin UniversityChangchunJilin 130012China;  
2. Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of EducationJilin UniversityChangchunJilin 130012China;  
3. College of Computer Science and EngineeringChongqing University of TechnologyChongqing 400054China;  
4. Center for Computer Fundamental EducationJilin UniversityChangchunJilin 130012China)  
Abstract: To automatically determine the number of clustersa new fuzzy clustering algorithm is proposed in this  
studywhich is based on soft partition scheme and integrates many FCM clustering results. In this methodFCM clustering is  
implemented on data by the cluster number; then the membership information is used to build a cumulative adjacency ma-  
trix; finallythe graph cut method is adopted to the cumulative adjacency matrix by iterative manner to obtain clustering re-  
sults. Simulation experiments show thatcompared to the current integrated clustering methodour method can effectively re-  
duce the number of FCM clustering; furthermoreits iterations in the graph cut process is about 1 /2 of the existing method.  
Key words: fuzzy clustering; fuzzy Cmeans algorithm; graph partition  
式聚类算法 基于密度的聚类算法和基于网格的聚类  
1
引言  
.
算法 其中划分式聚类算法因其具有简单 有效等特性  
而得到了广泛地研究与应1 ~ 17典型的划分式聚类  
12]  
.
算法有  
数据聚类是指将一个数据集划分成多个数据子  
.
集 并且处于同一数据子集的数据样本间具有较大的  
KMeans  
KMedoid  
FCM  
算法  
算法  
算法等  
相似 度 而 处 于 不 同 子 集 数 据 间 样 本 的 相 似 度 较  
1 ~ 3聚类是进行有效数据挖掘的一项重要研究方  
前两种算法属于硬划分聚类方法 后一种算法属于软  
.
.
划分聚类方法 由于引入了模糊信息  
FCM  
算法得到了  
法 在图像分割 模式识别 计算机视觉等领域中有着十  
分广泛的研究与应1 ~ 13]  
.
更为广泛地关注  
.
FCM  
为完成准确聚类 传统  
算法需要事先指定聚  
根据数据在聚类中的集聚规则及应用这些规则的  
.
Cai  
类个数 如在图像分割领域 由  
等人提出的结合局  
12]  
:
层次化聚类算法 划分  
方法 可以将聚类分为四类  
( FGFCM) 5]  
部信息的快速和鲁棒的模糊聚类算法  
: 20150717;  
: 20151008;  
:
收稿日期  
修回日期  
责任编辑 梅志强  
:
( No. 61305046No. 61502065) ;  
( No. 20140101193JCNo. 20130522117JH20150101055JC) ;  
吉林省自然科学基金  
基金项目 国家自然科学基金  
( No. cstc2015jcyjBX0127)  
重庆市基础与前沿研究计划项目  
688  
2017  
Krinidis  
2K.  
围为  
K
对于 值的选取并没有核聚类方法中相关  
等人提出的一种鲁棒的使用局部信息的聚类算  
( FLICM) 6]  
K
等 都需要人为指定聚类个数 因此很大  
参数选取那么复杂 只要选取较大的 值便可获得理  
FCM  
.
程度上限制了  
算法的灵活性 然而 实际应用中通  
想的聚类效果 根据每次聚类得到隶属度矩阵  
U ,  
该方  
C
.
常事先并不知道待处理数据集的分布情况 因此 如何  
x
法采用硬划分方式将每个样本点 划分到具有最大隶  
i
确定待处理数据集的聚类个数引起了研究者的广泛关  
N
属度的那一聚类中 由此可以得到一个由 个样本所  
.
注 如在彩色图像分割中  
Yu  
等人利用蚁群优化算法来  
. Tan  
L =l l l ,  
l
属聚类编号组成的一维向量  
= arg max{ u } u  
其中  
C
1
2
N
i
确定聚类中7但该方法时空开销很大  
等人利  
i
k
为第 样本隶属于第 个聚类的隶属  
ik  
ik  
1
k
C
用颜色信息子分量直方图中的主峰作为聚类中8]  
度 然后根据向量  
L
N
便可构造出一个 个样本点间的  
C
该方法对图像聚类非常有效 而对于其它的一些数据  
O =o ]  
o
( 1)  
:
所示  
邻接矩阵  
其中 定义如式  
ij  
C
ij N × N  
集 一般很难有效地统计出其直方图 因此该方法的适  
1if l = l ( i j)  
i
j
o =  
ij  
( 1)  
o  
.
( Cluster Validi-  
用范围非常有限 另外 聚类有效性指标  
{
0else  
ty IndexCVI)  
是一种常见的聚类结果评价指标 直至目  
i
j
即当第 个样本与第 个样本属于同一聚类时  
ij  
前仍有大量研究者对该类方法进行研14 ~ 17此类方  
CVI  
.
= 1,  
否则  
o = 0,  
显然该邻接矩阵为一个对称矩阵 然  
ij  
法是通过选取不同的聚类个数进行聚类 然后根据  
O
C
后 将所有聚类得到的邻接矩阵  
进行累加 其中  
C
.
来选取出最佳的聚类结果 对于一些简单的 线性可分  
2K,  
J:  
从而得到一个累积邻接矩阵  
K
CVI  
方法比较有效 但是对于那些分布复杂  
的数据集  
J =  
O
( 2)  
.
线性不可分的数据集 该方法可行性较差  
C
C = 2  
对于分布复杂 线性不可分的数据集 即使给定最  
J
累积邻接矩阵 由于集成了不同聚类个数下的  
9]  
.
FCM  
佳的聚类个数 采用  
算法也不能对其准确聚类  
FCM  
聚类结果 因此 增强了属于同一组数据间的聚合  
( KF-  
为解 决 该 问 题 基 于 核 方 法 的 模 糊 聚 类 算 法  
程度 同时也削弱了属于不同组数据间的聚合程度  
CM) 10 ~ 13]  
.
得到了广泛研究 对于这些在当前维度下不  
O
但是 该方法在构造邻接矩阵  
时采用了硬划分  
C
可分的数据集 通过核方法向高维度或低维度进行投  
方式 没有充分利用每次聚类结果所得到的隶属度信  
.
影后 可使得投影后得到的数据集变得线性可分 然后  
O
息 从而在其邻接矩阵  
中无法体现出各个样本间的  
C
FCM  
算法即可准确地完成聚类 但代价是带来  
再采用  
聚合程度  
.
了较大的时空开销 另外 对于聚类个数 核函数及其参  
3
自动确定聚类个数的模糊聚类算法  
数的选取都使得整个过程更为复杂 通常这些参数的  
13]  
最近  
选择都是凭借经验 因此其实用性相对较差  
9]  
针对文献 中的问题 本文充分利用隶属度信  
9]  
Mok  
.
等人提出了一种自动确定聚类个数的聚类算法  
息 提出一种自动确定聚类个数的模糊聚类算法 该算  
但是 该方法在构造累积邻接矩阵时采用了硬划分方  
法采用软划分方式 使得每次构造出的邻接矩阵更为  
FCM  
聚类 同时在后  
式 从而导致其需要进行更多次的  
合理 并且在后续图切分过程中可以有效降低迭代次  
.
续的图切分过程中也需要更多次迭代  
K
数 同时可以适当扩大 的取值范围  
基于此 本文从自动确定聚类个数的角度 借助概率  
3. 1  
算法原理及过程  
.
论等相关知识 提出了一种新的模糊聚类算法 该算法充  
FCM  
聚类时 本文方法不仅保存每个样  
在每次完成  
FCM  
聚类结果得到的隶属度信息 重新构造  
分利用每次  
本所属的聚类编号 而且还保存对应的最大隶属度信息  
累积邻接矩阵 并且采用软划分方式 从而大大降低了后  
( 3)  
L
因此 本文按照式  
对相应的矩阵  
进行重新定义  
C
FCM  
续图切分过程中的迭代次数 同时仅需较少次数的  
l l l  
1
2
N
L =  
C
( 3)  
.
聚类就可得到与原始方法相同的聚类结果  
[
]
u u u  
1
2
N
2
相关工作  
l = arg max{ u } u = max { u } .  
argmax{ ·}  
其中  
式中  
l ;  
i
ik  
i
ik  
1
k
C
1
k
C
u
max{ ·}  
用于计算使得隶属度 最大的聚类编号  
ij  
i
属于同一组的数据样本间的相关性要强于属于不  
u
用于计算隶属度 的最大值  
ij  
同组的数据样本间的相关性 即属于同一组的数据集  
x
x ,  
和 相应的聚类编  
任取数据集中两个样本点  
l ,  
i
j
被划分到一类的概率要远远大于属于不同组的数据集  
l
u
u .  
j
号分别为  
相应的最大隶属度分别为  
Mok  
等人提出了  
被划分到一类的概率 根据这一特性  
i
j
i
一种自动确定聚类个数的聚类算9]  
K,  
i
i
j
x
l
x
据概率论相关知识 若将 被划分到第 类和 被划  
l
分到第 类看作两个独立事件 则这两个事件分别发生  
FCM  
该算法首先给定最大聚类个数  
C,  
然后采用  
C
j
p = u  
i
p = u .  
j
l = l ,  
若 即样本点  
x
的概率分别为  
进行多次聚类 每次的聚类个数为  
其中 的取值范  
i
j
i
j
i

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载