推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

一种K-means改进算法的并行化实现与应用

更新时间:2019-12-24 02:32:32 大小:1M 上传用户:zhiyao6查看TA发布的资源 标签:K-means改进算法 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。


部分文件列表

文件名 大小
一种K-means改进算法的并行化实现与应用.pdf 1M

部分页面预览

(完整内容请下载后查看)
46 卷 第 1 期  
20171月  
电 子 科 技 大 学 学 报  
Vol.46 No.1  
Jan. 2017  
Journal of University of Electronic Science and Technology of China  
基于手机数据的城市人口分布感知  
徐仲之,曲迎春,孙 黎,王 璞  
(中南大学交通运输工程学院 长沙 410075)  
摘要提出了一种基于手机数据虑手机市场占有率的城市人口分布感知方法将该方法应用于美国旧金山湾区;  
介绍了使用手机数据动态感知城市人口分布的潜在可能,并计算了湾区各个小区白天与夜间的人口数量差。研究结果表明,  
基于手机数据的城市人口分布感知,对城市突发事件预警、城市交通管控、城市公共资源配置等方面都有着重大意义。  
关 键 词 人类动力学; 手机数据分析; 人口分布感知; 城市交通  
中图分类号 N94  
文献标志码  
A
doi:10.3969/j.issn.1001-0548.2017.01.018  
Urban Population Sensing via Mobile Phone Data  
XU Zhong-zhi, QU Ying-chun, SUN Li, and WANG Pu  
(School of Traffic and Transportation Engineering, Central South University Changsha 410075)  
Abstract This paper presents an urban population sensing method based on mobile phone dataset and  
applies it to San Francisco Bay Area. The difference of mobile phone market shares in different tracts is considered.  
We introduce the potential application of dynamic population sensing using mobile phone data and calculate the  
relative difference of daytime population and nighttime population in different tracts in Bay Area. The knowledge  
of urban population distribution has great importance of the early-warning of city emergency, urban traffic control,  
and the allocation of city public resources.  
Key words human dynamics; mobile phone data; population sensing; urban transportation  
区域人口数量和区域人口分布对于国家政策的  
制定[1-2]、区域经营决策的制定[3]、人类行为的定量  
化分析[4]等方面都具有着重要作用[5-7]。在过去的数  
十年间,人口分布的相关研究进展迅速,出现了很  
多新模型、新方法。从最初的依靠人力进行人口普  
查的方式,发展到依靠遥感卫星进行感知的方法、  
使用地理信息系统进行建模的方法等[8]。部分发达  
国家亦开展了一些国家层级的人口分布测量项目,  
取得了相关成果。然而,多数人口分布测量方法较  
复杂,实施难度较高,数据获取较困难,导致世界  
许多地区的人口分布信息时效性差,更新较慢,  
甚至缺乏。  
义的结合。文献[11]介绍了全球人口分布感知项目  
LandScan项目在提升人口分布感知精度的同时,  
保留了地理语义,能够更精确地应用于地质灾害预  
病管控等相关研究[12]提出一种采用了  
数据融合技术的人口分布感知方法,融合了人口普  
查数据和卫星数据,提高了非洲人口分布测量的分  
辨率,并且基于此测量结果,分析了人口空间分布  
中心性和偏远地区对于人口稠密区的可达性。研究  
发现绝大部分人分布在极少的地方(21%的土地含盖  
90%的人口),这为通讯设备的建立,生活服务设  
施的建立提供了相关指导。覆盖整个东南亚地区的  
人口分布数据主要来自2000年的人口普查数据,空  
间分辨率不足[13]结合人口普查数据星数  
据和土地使用率数据,将分辨率提高至100 m左右。  
以上相关研究虽然从不同方面改进了人口分布感知  
技术,但是由于其采用的数据(遥感数据或普查数据)  
获取困难,导致时效性较差。  
20世纪90年代,人口分布感知的相关研究逐渐  
兴起,文献[9]回顾了20世纪主要的人口分布感知技  
术 , 重 点 回 顾 了 地 理 信 息 系 统 (geographic  
information system, GIS)技术的进步对人口分布感知  
技术发展所起到的推动作用[10]介绍了一种人  
口分布信息栅格化方法,人口分布信息的栅格化虽  
然提高了人口分布数据的精度,但削弱了同地理语  
如上文所述,人口分布在空间分辨率上的研究  
非常丰富在时间分辨率上并未得到足够的重视。  
收稿日期:2016 01 06;修回日期:2016 08 23  
基金项目:国家自然科学基金面上项目(61473320);霍英东青年教师基金基础研究课题(141075);湖南省科技计划项目(2015RS4011)  
作者简介:徐仲之(1991 ),男,主要从事数据挖掘、人类动力学和复杂网络方面的研究.  
6期  
徐仲之,等: 基于手机数据的城市人口分布感知  
107  
127  
文献[14]提出了一种动态测量人口分布的方法旧  
金山为例动态测量了旧金山的夜间和白天人口。为  
了达到动态测量的目的,该方法结合了卫星数据、  
土地使用率数据、用地类型数据、路网数据等。文  
[15]以土地利用类型作为建模的媒介合人口普  
查数据、土地利用空间数据和建筑物空间数据,建  
立了“人口-昼夜-土地利用”关系模型,动态感知  
北京市昼夜人口分布变化。文献[14-15]提出的方法  
虽然能够动态测量城市人口分布,但使用数据多样  
且难以获取,建模方法复杂。  
1.6  
1.5  
1.4  
1.3  
1.2  
1.1  
1.0  
0.9  
0.8  
0.7  
0.6  
0.5  
0
5
10  
15  
20  
手机是一种良好的信息采集器。随着全球范围  
内手机普及率的提高,有大量手机信令数据可以被  
采集和利用[16-17]。手机数据海量、实时、易获取的  
特性,使其越来越广泛地应用于交通工程[18-19]、城  
市规划[17,20]等研究领域,也为城市人口分布感知提  
供了新的方向,使动态感知人口分布成为可能。文  
[21]利用葡萄牙和法国某通讯公司数个月的手机  
数据,动态感知了葡萄牙和法国人口分布情况。文  
[22]简要介绍了基于移动基站的人口分布动态监  
测系统,该系统可提供较精细时间分辨率的人口分  
布信息。然而,文献[21-22]所使用的数据量庞大,  
在手机信令数据不十分丰富的区域难以展开,且当  
应用于全网实时信令分析时,交换机和相关信令链  
路的负荷过高,并需要巨量的成本投入;小样本数  
据问题和数据分布不均匀性问题未得到解决。  
日期/d  
a. 手机CDR数据量  
b. 湾区手机基站及基站小区示意图  
1 手机数据量信息及基站分布示意图  
1 旧金山湾区手机数据和人口分布信息  
1.2 湾区夜间人口分布信息  
1.1 湾区手机数据信息  
2a展示了湾区夜间人口密度分布情况,数据  
为人口普查数据,旧金山、奥克兰、圣荷西和尤宁  
城等大城市人口密度较大。郊区多为山林,人口密  
度较小。湾区各小区面积分布如图2b所示,可以看  
出,绝大部分的小区面积都较小,人口分布感知结  
果的精度将会较高。  
本文使用湾区手机数据感知湾区人口分布信  
息。数据来自美国某通信公司,记录了2010年中连  
续的21天,共429 595个手机用户的通话详单(call  
detail records, CDR)数据信息,平均每天约有1 200  
000条手机CDR数据1a所示手机使用者进  
行通话或发送短信时,其通信时刻及通信基站会被  
记录下来。如图1b所示,根据泰森多边形算法[23]  
将湾区按基站位置划分为若干多边形(即基站小区),  
使得基站和小区一一对应。通过每个小区包含的基  
站信息,可以确定一条手机CDR信息的发生小区。  
本文把手机用户在20:00到第二天7:00间手机CDR记  
录次数最多的小区定义为其住址小区[24]。被选取的  
手机用户在所有21天的20:00到第二天7:00时间段中  
需至少有一条CDR信息,用于确定其住址小区。据  
此从中选取了360 612个手机用户的CDR信息来进  
行人口分布感知研究。  
>15 000  
10 000  
<2 000  
a. 湾区夜间人口分布  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载