推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于差集的高效用项集挖掘方法

更新时间:2019-12-24 13:13:03 大小:1M 上传用户:守着阳光1985查看TA发布的资源 标签:关联规则高效用项集 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

高效用项集挖掘已成为关联规则中的一个热点研究问题.一些基于垂直结构的算法已用来挖掘高效用项集,此类算法的主要优点是将项集的事务和效用信息存储到效用列表中.在求一个项集的超集所在事务可以通过对它的子集进行一次交集运算得到.这种算法在稀疏数据集中非常的有效.但在稠密数据集中存在一个问题,即列表中存储的事务太多,在计算用于剪枝的效用上界时,需要耗费大量的存储空间,同时也影响运行速度.并且在现有的算法中,缺乏针对稠密数据集的高效用项集挖掘算法,往往需要设置很高的最小效用阈值,影响算法的运行效率.针对此问题,提出一个新的算法D-HUI(mining High Utility Itemsets using Diffsets)以及一个新的数据结构—项集列表,首次在高效用项集挖掘中引入差集的概念.利用事务的差集求项集的效用上界,减少计算量以及存储空间,从而提高算法的运行效率.实验结果表明,提出的算法在稠密数据集中,执行速度更快,内存消耗更少.


部分文件列表

文件名 大小
基于差集的高效用项集挖掘方法.pdf 1M

部分页面预览

(完整内容请下载后查看)
8
Vol. 46 No. 8  
Aug. 2018  
2018  
8
ACTA ELECTRONICA SINICA  
基于高效用挖掘方法  
1
2
2
, ,  
黄 坤 吴玉佳 李 晶  
( 1.  
中国舰船研究计中心 武汉  
430064; 2.  
武汉大学计算机学院 武汉  
430072)  
:
高效用挖掘已关联规则中的一点研究问题 基于结构用来挖掘高效用  
.  
此类算法的主要的事效用信息效用集所通过对  
. . ,  
的子进行得到 这稀疏数据有效 稠密数据问题 中  
, , .  
的事算用剪枝效用耗费储空同时影响法  
, , .  
缺乏稠密数据高效用挖掘往往需效用影响法的行效率 对此问  
提出个新法  
D-HUI( mining High Utility Itemsets using Diffsets)  
,  
个新数据结构 首次在高  
, ,  
效用挖掘效用减少算量储空而提高算法的运  
, , ,  
行效率 实验结果表明 提出稠密数据少  
:
;
;
;
;
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
关联规则 高效用稠密数据结构 集  
:
TP311  
:
A
:
文章编号  
0372-2112 ( 2018) 08-1804-11  
文献标识码  
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 08. 002  
电子学报  
Mining High Utility Itemsets Using Diffsets  
1
2
2
HUANG Kun WU Yu-jia LI Jing  
( 1. China Ship Development and Design CenterWuhanHubei 430072China;  
2. School of ComputerWuhan UniversityWuhanHubei 430072China)  
Abstract: High utility itemsets mining ( HUIM) has become an emerging topic in association rules. Some algorithms  
based on vertical data structure have been used for mining high utility itemsets( HUIs) and the main advantage of the algo-  
rithms are to maintain transaction and utility information of itemsets in some utility lists( ULs) . The transactions of superset  
of an itemsets can be calculated by its subset doing an intersection. These algorithms are very effective in sparse datasets.  
Howeverin the dense datasetsa problem is that: too many transactions maintained in ULsnot only required a lot of memo-  
ry spacebut also affected the runtime when computing the upper bound of utility in order to prune search space. Few of ex-  
isting HUIM algorithm focused on dense datasets and it often need to set a high minimum threshold utility which affect the  
running efficiency of the algorithm. To solve this problempropose a new algorithm D-HUI( mining High Utility Itemsets u-  
sing Diffsets) and a new data structurenamely Itemset Lists ( ILs) . Introduce the concept of diffsets in the HUIM. Calculate  
upper bound of utility by using diffsets of transaction for pruning search space. The runtime and memory consumption are re-  
ducedand the running efficiency of the algorithm is improved. Experimental results show that the proposed algorithm in the  
dense datasets outperforms state-of-the-art algorithms in terms of both running time and memory consumption.  
Key words: association rules; high utility itemsets; dense datasets; vertical structure; diffsets  
,  
因此 高  
1
引言  
( High Utility ItemsetsHUIs)  
效用集  
领域中的一研究问题一  
速成数据挖  
数据挖掘中的一关联关联分  
1 ~ 4]  
而 在繁  
主要挖掘  
挖掘效用  
56]  
挖掘框架中  
中的以  
挖掘的一种况 如项的效用的  
( 、 、 ) .  
项的重润 价格 权而在一  
具体只考或不设  
应用时不仅仅需现  
1,  
效用效用挖  
: 2016-11-26;  
: 2017-06-30; :  
责任编辑  
收稿日期  
修回日期  
:
基金项目 国家自然科学基金  
( No. 61303046)  
1805  
8
:
基于高效用挖掘方法  
14]  
, ,  
常情况下 因为较少 挖掘比高  
. Philippe  
HUI-Miner  
FHM  
的基提出了  
集  
, ,  
效用挖掘效率更高 无  
增加个新策略  
EUCP,  
减少连接操的  
15]  
应用领域 因为很多应用领域要  
. Krishnamoorthy  
HUP-Miner ,  
同  
量  
提 出 了  
项的素  
HUI-Miner  
, ,  
这也一种基于结构此算  
以 挖掘  
HUIs  
不是的任频  
应用个新剪枝策略 分效用剪枝向效  
,  
挖掘 常常加困挖掘多数  
HUI-Miner.  
剪枝 在效率上略于  
不产生任多数据基于  
UP-Growth  
, ,  
使用了向性质 它  
, ,  
集也都非频的  
结构于  
基于结构  
12]  
集都非频的  
性质搜索空  
,  
这些基于仅需集  
.  
进行剪枝 大大减少算量低内而  
的事效用信息 搜索进行  
性质在高效用挖掘直接使用 因为  
剪枝效用信息 这也低了算占  
低效用定它否  
用了更稠密数据况下  
, ,  
为低效用高效用集 也断  
,  
的严重 效用需  
定它为高效用集 这问题给高效用项  
增加耗  
挖掘来了挑战  
—  
述问题 提出个新数据结构 列  
使用效用方法搜  
( Itemset ListsILs)  
D-HUI,  
和一挖掘稠密数  
7 ~ 9]  
进行剪枝 高效用挖掘能  
HUIs.  
挖掘  
的事效用  
7]  
Liu  
Two-Phase  
通过来确  
提出  
,  
信息 提出使的方法计效用 而  
8]  
HUIs. Yao  
UMining  
使一种计  
提出了  
. Li  
.  
得到效用界估减少法  
9]  
方法减少搜索间  
提出孤立丢弃策  
D-HUI,  
直接直接现所的  
HUIs  
不  
,  
减少量 在这些方法中 挖掘程  
生任集  
, ,  
分为第一的  
HUIs(  
效用  
2
相关工作与问题定义  
, ) ,  
大于效用值 称二  
, ,  
这些数据算其实  
部分 首先给出高效用挖掘问题定义  
效用 确定的  
HUIs.  
这些方法中 使含  
然后介绍关工作  
2. 1  
问题定义  
的事效用满足性质 从  
.  
而对搜索进行剪枝 然  
I = { i i i } .  
m
每  
给定个有的一项  
1
2
HUIs  
现 但这些方法经常会产生大  
的  
i ( 1  
k
k m)  
≤ ≤ 部效用值  
EU( i ) ,  
里  
k
项  
集 并且需数据库  
1 . P  
部效用为单由  
10]  
Ahmed  
为了避免数据库  
IHUP  
提出基  
k
{ i i i }  
k
i I1  
j
j
≤ ≤  
kk  
P
的  
项  
成  
1
2
挖掘高效用使树  
结构法  
. k k-  
的项集  
. IHUP  
结构来项的事效用信息  
IIDS  
比  
1
利润  
Two-Phase  
Tseng  
IHUP ,  
的基提出了  
更好能  
Item  
Profit  
A
B
C
D
E
F
G
11]  
+
12]  
UP-Growth  
UP-Growth  
提出剪  
法  
法  
7
2
1
2
3
2
3
, , .  
策略 减少而提高算法的但  
D = { T T T } ,  
事  
n
数据库  
1
2
, ,  
是 以要先选  
,  
务  
T ( 1 id n)  
≤ ≤  
id  
I
的一集  
数据算其效用 确定的  
T .  
id  
或多具有一的符  
IU( i T ) ,  
事  
HUIs,  
对算法的挖掘大的影响  
T
i
中的一具有个内部效用值  
13]  
id  
k
k
id  
Liu  
为了解决问题  
HUI-Miner.  
法  
提出一种的挖掘  
2  
内部效用中的示  
HUIs  
别  
2
据库  
一种基于数据结构项  
TID  
Transaction  
TU  
HUIs.  
直接生  
( Utility ListsULs)  
首先生一列称为效用表  
T
( A1) ( C10) ( E2)  
( A2) ( B1) ( C6) ( E1) ( G5)  
( B1) ( D4) ( F1)  
23  
40  
12  
26  
23  
01  
数据结构 用的事信  
T
02  
T
03  
息 项的效用信息及能对搜索进行剪枝剩  
T
( B3) ( C11) ( D3) ( E1)  
( A1) ( B2) ( C3) ( E1) ( G2)  
04  
效用信息 的  
ULs  
ULs  
通过的  
T
05  
HUIs,  
生任选  
生成的  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载