推荐星级：

基于z值的分布式密度峰值聚类算法

更新时间：2019-12-24 17:40:23 大小：1012K 上传用户：守着阳光1985 查看TA发布的资源 标签：密度峰值聚类算法 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

密度峰值聚类算法由于在发现任意形状簇且不需指定聚类个数等方面具有一定的优势而被广泛关注.但是该算法需要计算数据集中所有点的密度和点对之间的距离,因此不适合处理大规模高维数据集.为此,本文提出了一种基于z值的分布式密度峰值聚类算法,DP-z.本方法利用空间z填充曲线将高维数据集映射到一维空间上,根据数据点的z值信息对数据集分组.为了能够得到正确的结果,需要对分组间数据进行交互,然后并行计算每个点密度和斥群值.DP-z算法在分组间数据交互时采用过滤策略,减少大量无效距离计算和数据传输开销,有效提高算法的执行效率.最后,本文在云计算平台上对DP-z算法进行了验证,实验表明在保证DP-z算法与原始密度峰值聚类算法聚类结果相同的情况下有效的提高了算法执行效率.

部分文件列表

文件名	大小
基于z值的分布式密度峰值聚类算法.pdf	1012K

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

Vol． 46 No． 3

Mar． 2018

第

期

电

子

学

报

2018

ACTA ELECTRONICA SINICA

年

月

基于值的分布式密度峰值聚类算法

，

卢晶段勇刘海波

( 1．

，

110870;

沈阳工业大学信息科学与工程学院辽宁沈阳

2．

，

071002)

河北大学计算机科学与技术学院河北保定

．

摘

要

密度峰值聚类算法由于在发现任意形状簇且不需指定聚类个数等方面具有一定的优势而被广泛关注

，

．

，

但是该算法需要计算数据集中所有点的密度和点对之间的距离因此不适合处理大规模高维数据集为此本文提出

了一种基于值的分布式密度峰值聚类算法

，DP-z．

本方法利用空间填充曲线将高维数据集映射到一维空间上根

，

．

，

据数据点的值信息对数据集分组为了能够得到正确的结果需要对分组间数据进行交互然后并行计算每个点密

，

． DP-z

，

算法在分组间数据交互时采用过滤策略减少大量无效距离计算和数据传输开销有效提高算法的

度和斥群值

．

执行效率最后本文在云计算平台上对

，

DP-z ， DP-z

算法进行了验证实验表明在保证

算法与原始密度峰值聚类算法

．

聚类结果相同的情况下有效的提高了算法执行效率

;

聚类分布式计算云计算

; z ;

填充曲线密度峰值

关键词

TP301. 6

0372-2112 ( 2018) 03-0730-09

DOI: 10． 3969 /j． issn． 0372-2112． 2018． 03． 031

中图分类号

文献标识码

文章编号

URL: http: / /www． ejournal． org． cn

电子学报

Distributed Density Peaks Clustering Based on z-Value

LU Jing ，DUAN Yong ，LIU Hai-bo

( 1． School of Information Science and Engineering，Shenyang University of Technology，Shenyang，Liaoning 110870，China;

2． School of Computer Science and Technology，Hebei University，Baoding，Hebei 071002，China)

Abstract: Density peak clustering is an effective and novel clustering algorithm，it is concerned as its superiority of

finding arbitrary shape of clusters and number of clusters． However，this algorithm is required to measure the density and dis-

tance between any pair of objects． This limits the practicability of this algorithm when clustering high-volume and high-di-

mensional data set． In order to improve efficiency and scalability，we propose a distributed density peak clustering algorithm

based on z-value，and DP-z． It utilizes z-values to map points in multidimensional space into one dimension，and then splits

the data set into several partitions according to the z-values of points． In order to get the correct result，we make use of the

character of points' z-values to filter the data object while exchanging data among groups，which reduces a huge amount of

useless distance measurement cost and data shuffle cost． Then we compute the density and distance value in parallel． Finally，

we test the DP-z algorithm based on the cloud computing platform，the experiments show that DP-z can achieve higher per-

formance at speed without reducing the accuracy．

Key words: clustering; distributed computing; cloud computing; z-order curve; density peaks

．

域得到广泛应用

引言

《Science》

发表于

学术期刊的密度峰值聚类算法

( Density Peaks Clustering，DPC) ^［4］

聚类分析是数据挖掘和模式识别等领域广为研究

一个新型的基于密度

．

的问题之一它将数据库中的数据分割成不同的族

．，

的聚类算法由于该算法能够发现任意形状的聚类也

(

) ，

类

并使族内数据之间的相似性比族间数据之间的

［1 ～ 3］

;

不依赖于数据集的维度算法的实现过程只需要计算

．

相似性大大量聚类分析算法

、

在社会网络分析统

(

)

出每个点密度值 ρ 由某一范围内点的个数来刻画和

、

、Web

计数据分析智能商务图像模式识别

搜索等领

: 2016-10-31;

: 2017-05 － 31;

收稿日期

修回日期

责任编辑梅志强

( No． 2015020010) ;

( No． LR2015045) ;

河北省自然科学基金青年基金

基金项目辽宁省自然科学基金

辽宁省高等学校优秀科技人才支持计划

( No． F2015201140)

731

第

期

卢

晶基于值的分布式密度峰值聚类算法

(

DPC

EDDPC

，

做简要介绍并对其中存在

斥群值 δ 与密度值比自己大的点的距离的最小值刻

本节对

和

) ，．

不需要多次迭代重要的是该算法不必事先指定

、

的复杂度高计算量大等问题进行简要分析

．

画

，

．

聚类个数而是用户根据每个点的两个属性值而决定

2． 1

密度峰值聚类算法简介

S = { x }

．

密度峰值聚类算法拥有以上优点而被广泛关注

，

考虑待聚类的数据集

对于中的任何

i = 1

由于该算法需要计算数据集中所有点对之间距

x ，

密度峰值聚类算法要计算其局部密度 ρ 和

数据点

，

、

，

离导致算法执行效率低降低适用性尤其高维海量数

．

斥群值 δ 两个属性

．

，

据随着云计算技术的发展很多算法可以在多台机器

［5］ MapReduce

局部密度 ρ

，

的分布式环境下执行文献基于

计算模

: ED-

( d － d )

( 1)

∑

型提出了一种高效的分布式密度中心聚类算法

1，x ＜ 0

0，x ＞ 0

DPC．

由于其粗略的数据复制方案导致其仍然存在大量

( x) =

其中 χ

{

．

的冗余数据复制和计算开销

d ＞ 0

，d

可以根据如下参数估计

参数

为截断距离

，

本文在深入分析密度峰值聚类算法的基础上提

方法^［4］来确定将所有点对的距离从小到大排序的

，

［6］

值

( Distrib-

的分布式密度峰值聚类算法

出一种基于

～ 2%

．

处例如

100

，

个点共有

4950

，

种组合将这些组合

uted Density Peaks Clustering based on z-value，DP-z) ，

并

， 50 ～ 100

．

值由式

距离排序在

处选取某一距离为

Hadoop

，

DP-z

在

集群上进行了实验测试验证

算法在处

( 1)

，

可知 ρ 表示的是中与之间的距离小于

的

．

理大规模高维数据上的高效性

DP-z

(

) ．

点的个数不考虑本身

算法利用空间填充曲线将高维数据映射成

点的斥群值 δ 定义为

，

一维空间轴上的点根据数据点值的分布将数据集

= min( d )

( 2)

斥群值 δ 代表与密度值比自己大的点的距离的最

， j ，

小值假设密度比 ρ 大的点中点与点的距离最近

j: ＞

ρ_jρ_i

．，

分组将各组数据分给不同的机器进行运算在组内计

． z

算每个点的密度值 ρ 和斥群值 δ 由于采用填充曲线

．

，

对高维数据点进行了降维处理可能会导致原始数据

= d ( d

) ，

那么 δ

代表点到点的距离而点就是点

，

．

的近邻性受损导致相邻的数据被分到不同的组中在

^［5］， = arg min ( d ) ．

说明点可以

的斥群值依附点 σ

计算分组中每个点密度值 ρ 和斥群值 δ 时可能会用到

S，＞

ρ_jρ_i

∈

．

，

其它组中的数据对此本文基于数据点值携带高维

．

，

归属于点所属聚类斥群值 δ 越小这种依附可能性

空间位置信息的性质提出一种基于值上下限的数据

，

越大说明点越有可能归属于点所属的聚类斥群值

;

，

复制模型和数据分发模型将其他组内的少量数据复

， i

，

δ 越大点距离点越远依附关系就越弱点越有

．

制到本组中各机器根据分组数据和复制数据进行并

，

．

可能与点不属于同一个聚类或者是离群点当某个

，

行计算各点的密度值 ρ 和斥群值 δ 并从理论上保证其

，

点

的密度值 ρ 是所有点中密度最大值那么点

的

．

正确性

斥群值 δ 则为

本文的主要贡献如下

DPC

= max ( d )

( 3)

，

算法进行了分布式扩展基于

Ma-

① 对原始

，

根据密度值 ρ 和斥群值 δ 可绘制二维决策图横轴

1( b)

pReduce

模型提出基于值的分布式密度峰值聚类算

，DP-z， Hadoop

，

．

，

为密度值纵轴为斥群值如图所示图

为图

．

法

并在开源云计算平台

上实现

( a)

．

，

数据集的决策图根据图中决策点的分布情况可

以看出密度值 ρ 和斥群值 δ 都非常大的点分布在决策

，

② 为正确计算 ρ 值设计基于

范围内值最小

;

下限和最大上限的复制策略为正确计算分组内密度

，

图中的右上角将这些点圈出作为聚类中心点然后根

，

最大值点外其他点的全局斥群值 δ 设计基于 δ 范围内

，

据数据集中每个点的 δ 值的依附关系反推出每个点所

;

值最小下限和最大上限的复制策略为正确计算组内

．

属聚类

，

密度值最大点的全局斥群值 δ 设计基于各组最大密度

” z

值点的 δ 范围内值下限和上限分发策略

．

③ 在多个数据集上对分布式密度峰值聚类算法进

．

行了多方面实验评估

密度峰值聚类算法及其分布式

Alex Rodriguez

2014

《Science》

年在上发

由

等人于

．［5］，

表文献在此基础上针对算法复杂度高等问题提

: EDDPC．

出了分布式密度中心聚类算法

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic小能手打赏5.00元 1天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 1天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 1天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 1天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 1天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 1天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：zhengdai
21ic下载打赏220.00元 3天前

用户：gsy幸运
21ic下载打赏220.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏80.00元 3天前

用户：xzxbybd
21ic下载打赏60.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：方中禾
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸

21ic下载打赏15.00元 3天前

用户：kk1957135547
21ic下载打赏15.00元 3天前

用户：w993263495
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏20.00元 3天前

用户：WK520077778
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏15.00元 3天前

用户：sbfd010
21ic下载打赏10.00元 3天前

用户：严光辉
鹏鹏科技打赏1.00元 3天前

资料：Xiaomi 15 Pro Schematic
21ic小能手打赏10.00元 3天前

资料：四层无人机飞控打板文件
21ic小能手打赏5.00元 3天前

资料：AD通用3D封装库
21ic小能手打赏5.00元 3天前

资料：DeepSeek使用教程
21ic小能手打赏5.00元 3天前

资料：STM32F051K8U6库函数点灯例程编译通过
21ic小能手打赏10.00元 3天前

资料：九齐单片机2路PWM控制输出
21ic小能手打赏10.00元 3天前

资料：基于STM32单片机及MAX31865模块实现铂电阻PT100温度采集
21ic小能手打赏20.00元 3天前

资料：毕业设计基于python实现的火车订票管理系统源码+数据库+项目说明
21ic小能手打赏10.00元 3天前

资料：二阶RC有源滤波器的设计报告，完整版
21ic小能手打赏15.00元 3天前

资料：基于stm32F1的声源定位
sd-hyc 打赏1.00元 3天前

资料：神州易刻2024最新版
柏涵打赏1.00元 3天前

资料：XDS100_v1_1_RTM

基于z值的分布式密度峰值聚类算法

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页