推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

一种基于格的隐私保护聚类数据挖掘方法

更新时间:2020-01-02 21:20:57 大小:422K 上传用户:zhiyao6查看TA发布的资源 标签:数据挖掘 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

由于云计算的诸多优势,用户倾向于将数据挖掘和数据分析等业务外包到专业的云服务提供商,然而随之而来的是用户的隐私不能得到保证.目前,众多学者关注云环境下敏感数据存储的隐私保护问题,而隐私保护数据分析的相关研究还比较少.但是如果仅仅为了保护数据隐私,而不对大数据进行挖掘分析,大数据也就失去了其潜在的巨大价值.提出了一种云计算环境下基于格的隐私保护数据挖掘方法,利用格加密构建隐私数据的安全同态运算方法,并且在此基础上实现了支持隐私保护的云端密文数据聚类分析数据挖掘服务.为保护用户数据隐私,用户将数据加密之后发布给云服务提供商,云服务提供商利用基于格的同态加密算法实现隐私保护的k-means、隐私保护层次聚类以及隐私保护DBSCAN数据挖掘服务,但云服务提供商并不能直接访问用户数据破坏用户隐私.与现有的隐私数据发布方法相比,隐私数据发布基于格的最接近向量困难问题(CVP)和最短向量困难问题(SVP)具有很高的安全性.同时,有效保持了密文数据间距离的精确性.与现有研究相比,挖掘结果也具有更高的精确性和可用性.对方法的安全性进行了理论分析,并设计实验对提出的隐私保护数据挖掘方法效率进行评估,实验结果表明,提出的基于格的隐私保护数据挖掘算法与现有的方法相比具有更高的数据分析精确性和计算效率.


部分文件列表

文件名 大小
一种基于格的隐私保护聚类数据挖掘方法.pdf 422K

部分页面预览

(完整内容请下载后查看)
软件学报 ISSN 1000-9825, CODEN RUXUEW  
Journal of Software,2017,28(9):22932308 [doi: 10.13328/j.cnki.jos.005183]  
©中国科学院软件研究所版权所有.  
E-mail:  
Tel: +86-10-62562563  
一种基于格的隐私保护聚类数据挖掘方法∗  
1,2  
1,2  
1,2  
1,2  
1,2  
崔一辉  
,
,
王占兵  
,
史成良  
,
程芳权  
1(软件工程国家重点实验室(武汉大学),湖北 武汉 430072)  
2(武汉大学 计算机学院,湖北 武汉 430072)  
通讯作者: 宋伟, E-mail:  
: 由于云计算的诸多优势,用户倾向于将数据挖掘和数据分析等业务外包到专业的云服务提供商,然而随  
之而来的是用户的隐私不能得到保证.目前,众多学者关注云环境下敏感数据存储的隐私保护问题,而隐私保护数据  
分析的相关研究还比较少.但是如果仅仅为了保护数据隐私,而不对大数据进行挖掘分析,大数据也就失去了其潜在  
的巨大价值.提出了一种云计算环境下基于格的隐私保护数据挖掘方法,利用格加密构建隐私数据的安全同态运算  
方法,并且在此基础上实现了支持隐私保护的云端密文数据聚类分析数据挖掘服务.为保护用户数据隐私,用户将数  
据加密之后发布给云服务提供商,云服务提供商利用基于格的同态加密算法实现隐私保护的 k-means、隐私保护层  
次聚类以及隐私保DBSCAN数据挖掘服务,但云服务提供商并不能直接访问用户数据破坏用户隐私.与现有的隐  
私数据发布方法相比,隐私数据发布基于格的最接近向量困难问题(CVP)和最短向量困难问题(SVP)具有很高的安  
全性.同时,有效保持了密文数据间距离的精确性.与现有研究相比,挖掘结果也具有更高的精确性和可用性.对方法  
的安全性进行了理论分析,并设计实验对提出的隐私保护数据挖掘方法效率进行评估,实验结果表明,提出的基于格  
的隐私保护数据挖掘算法与现有的方法相比具有更高的数据分析精确性和计算效率.  
关键词: 数据挖掘;隐私保护;隐私保护的数据挖掘;基于格的加密  
中图法分类号: TP311  
中文引用格式: 一辉,,占兵,成良,芳权.种基于格的隐私保护聚类数据挖掘方法.件学报,2017,28(9):  
2293
英文引用格式: Cui YH, Song W, Wang ZB, Shi CL, Cheng FQ. Privacy preserving cluster mining method based on lattice. Ruan  
Jian Xue Bao/Journal of Software, 2017,28(9):2293
Privacy Preserving Cluster Mining Method Based on Lattice  
CUI Yi-HUI1,2  
,
SONG Wei1,2  
,
WANG Zhan-Bing1,2  
,
SHI Cheng-Liang1,2  
,
CHENG Fang-Quan1,2  
1(State Key Laboratory of Software Engineering (Wuhan University), Wuhan 430072, China)  
2(Computer School, Wuhan University, Wuhan 430072, China)  
Abstract: Due to the various advantages of cloud computing, users tend to outsource data mining task to professional cloud service  
providers. However, user’s privacy cannot be guaranteed. Currently, while many scholars are concerned about how to protect sensitive  
data from unauthorized access, few scholars engage research on data analysis. But if potential knowledge cannot be mined, the value of  
big data may not be fully utilized. This paper proposes a privacy preserving data mining (PPDM) method based on lattice, which support  
基金项目: 国家自然科学基金(61232002, 61572378, 61202034); CCF 中文信息技术开放课题(CCF2014-01-02); 武汉市创新团  
队项目(2014070504020237); 武汉大学自主科研项目(2042016gf0020, 2016-2017)  
Foundation item: National Natural Science Foundation of China (61232002, 61572378, 61202034); CCF Chinese information  
technology open topic (CCF2014-01-02); Wuhan Innovation Team Project (2014070504020237); Wuhan University independent research  
project(2042016gf0020, 2016-2017)  
收稿时间: 2016-07-10; 修改时间: 2016-09-04; 采用时间: 2016-11-10; jos 在线出版时间: 2017-02-20  
CNKI 网络优先出版: 2017-02-20 14:02:19, http://www.cnki.net/kcms/detail/11.2560.TP.20170220.1402.011.html  
2294  
Journal of Software 软件学报 Vol.28, No.9, September 2017  
ciphertext intermediate point and distance homomorphic computing. Meanwhile, it builds a privacy preserving cloud ciphertext data  
clustering data mining Method. Users encrypt privacy data before outsource the data to cloud service providers, cloud service providers  
use homomorphic encryption to achieve privacy protection mining algorithms including k-means, hierarchical clustering and DBSCAN.  
Compared with the existing PPDM method, the presented method with high security is based on shortest vector difficulties (SVP) and the  
closest vector problem (CVP). Meanwhile, it maintains the accuracy of distance between two data, providing mining results with high  
accuracy and availability. Experiments are designed for the privacy preserving cluster mining (PPCM) with cardiac arrhythmia datasets of  
machine learning, and the experimental results show that the method based on lattice ensure not only security but also accuracy and  
performance.  
Key words: data mining; privacy preserving; privacy preserving data mining (PPDM); lattice-based cryptography  
随着云计算的发展和普及,用户越来越倾向于将数据存储到云上,租用云计算服务中心提供的丰富计算和  
存储资源,能够为用户提供更加高效、专业的数据分析服务.然而,云服务提供商往往并不完全可信,用户在享用  
云计算高效服务的同时,用户隐私数据也直接暴露给云服务中心,因此,数据隐私安全问题就成为用户使用云计  
算不得不考虑的首要问题.为解决云计算外包服务模式下的用户数据安全问题,现有研究更多地致力于解决用  
户隐私数据的存储安全,如密文可搜索机制、数据验证等.这些研究大多适用于查询、授权访问等简单应用场  
,而并不适用于数据聚类挖掘、关联分析等复杂应用场景.而数据需要隐藏发布的根本原因在于数据的潜在  
价值,隐私数据发布后,数据的深层可用性对数据隐藏技术的发展和成熟至关重要[1]  
.
用户将数据挖掘分析任务外包到云上,不可避免地会涉及到敏感数据,如何操作、分析这些数据的同时保  
护用户隐私,成为必须要解决的问题[2,3].目前,众多学者主要致力于服务提供商可信前提下的数据分析和处理  
研究,但这种假设在云计算的外包服务环境下并不成立,比如云服务提供商出于商业利益的驱使对用户隐私数  
据的滥用服务管理员出于好奇窥视用户隐私信息服务提供商遭遇黑客攻击等,都会导致用户隐私泄露.  
2000 ,Agrawal 首次提出了隐私保护数据挖掘(privacy preserving data mining,简称 PPDM)的概念[4].如图 1  
所示,隐私保护数据挖掘是指用户将数据外包给云服务提供商存储管理,由云服务提供商在确保用户隐私的前  
提下进行数据挖掘服务,并将有价值的挖掘结果返回给用户.为保护数据隐私,PPDM 中隐私数据本身和数据挖  
掘结果对于任何非授权第三方都不可见.例如:医疗机构获得了大量第一手的医疗大数据,其需要对医疗大数据  
进行聚类分析,进而得到潜在的疾病聚簇以及疾病治疗方案之间的相互关联性.显然,各个医疗机构数据挖掘的  
能力相对有限,往往需要将原始医疗数据发布给专业的云服务提供商,并委托其按照需要对大数据进行挖掘和  
分析,这时,病患的隐私成为不得不考虑的问题.保证用户数据的安全性和保障数据挖掘结果的准确性往往相互  
矛盾,现有数据挖掘算法和研究往往没有考虑云环境下云服务提供商不可信的情况,因此,如何在保证用户隐私  
的前提条件下提高挖掘结果的准确性,是个非常具有挑战性的问题.  
Fig.1 Data mining problem of privacy preserving  
1 隐私保护数据挖掘问题  
没有任何一种隐私保护技术适用于所有应用场景[5].针对不同的应用场景,众多学者提出了很多高效的方  
[68].目前,关联规则和决策树挖掘等隐私保护挖掘研究相对较多[911],而聚类挖掘由于涉及计算量较大,支持  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载