推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于高斯混合模型的增量聚类方法识别恶意软件家族

更新时间:2019-12-30 21:58:36 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:高斯混合模型 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

针对属于同一个家族的恶意软件的行为特征具有逻辑相似性这一特点,从行为检测的角度通过追踪API函数调用的逻辑规则来提取恶意软件的特征,并利用静态分析与动态分析相结合的方法来分析恶意行为特征。此外,依据恶意软件家族的目的性、继承性与多样性,构建了恶意软件家族的传递闭包关系,并改进了基于高斯混合模型的增量聚类方法来识别恶意软件家族。实验证明,所提方法不仅能节省恶意软件检测的存储空间,还能显著提高检测的准确率与识别率。


部分文件列表

文件名 大小
基于高斯混合模型的增量聚类方法识别恶意软件家族.pdf 1M

部分页面预览

(完整内容请下载后查看)
40 卷第 6 期  
2019 6 月  
Vol.40 No.6  
June 2019  
Journal on Communications  
基于高斯混合模型的增量聚类方法识别恶意软件家族  
胡建伟 1,车欣 1,周漫 2,崔艳鹏 1  
1. 西安电子科技大学网络与信息安全学院,陕西 西安 7100712. 华中科技大学网络空间安全学院,湖北 武汉 430074)  
摘 要:针对属于同一个家族的恶意软件的行为特征具有逻辑相似性这一特点,从行为检测的角度通过追踪 API  
函数调用的逻辑规则来提取恶意软件的特征,并利用静态分析与动态分析相结合的方法来分析恶意行为特征。此  
外,依据恶意软件家族的目的性、继承性与多样性,构建了恶意软件家族的传递闭包关系,并改进了基于高斯混  
合模型的增量聚类方法来识别恶意软件家族。实验证明,所提方法不仅能节省恶意软件检测的存储空间,还能显  
著提高检测的准确率与识别率。  
关键词:恶意软件家族;高斯混合模型;增量聚类;API 函数调用;逻辑规则  
中图分类号TP393  
文献标识码A  
doi: 10.11959/j.issn.1000-436x.2019135  
Incremental clustering method based on Gaussian  
mixture model to identify malware family  
HU Jianwei1, CHE Xin1, ZHOU Man2, CUI Yanpeng1  
1. School of Network and Information Security, Xidian University, Xi’an 710071, China  
2. Institute of Cyberspace Security, Huazhong University of Science and Technology, Wuhan 430074, China  
Abstract: Aiming at the logical similarity of the behavioral characteristics of malware belonging to the same family, the  
characteristics of malware were extracted by tracking the logic rules of API function call from the perspective of behavior  
detection, and the static analysis and dynamic analysis methods were combined to analyze malicious behavior character-  
istics. In addition, according to the purpose, inheritance and diversity of the malware family, the transitive closure rela-  
tionship of the malware family was constructed, and then the incremental clustering method based on Gaussian mixture  
model was improved to identify the malware family. Experiments show that the proposed method can not only save the  
storage space of malware detection, but also significantly improve the detection accuracy and recognition efficiency.  
Key words: malware family, Gaussian mixture model, incremental clustering, API function call, logic rule  
经成为目前信息安全人员的研究热点之一。  
1 引言  
然而,当前的恶意软件检测技术存在高误报率  
和高漏报率的不足[2],难以检测出采用了欺骗技术  
的恶意软件。值得注意的是,目前流行的恶意软件  
都具有很强的目的性,恶意代码编写者依据已有的  
恶意软件不断开发出行为目的相似但代码结构又  
不完全相同的恶意软件,从而形成恶意软件家族。  
据研究结果证实[3],超过 98%的新恶意软件样本实  
近年来,利用恶意软件进行网络攻击的行为越  
来越多[1]。恶意软件利用欺骗技术可以在发动攻击  
的同时逃避反病毒检测,具有多态性、隐蔽性、易  
感染性等特性,严重影响网络数据或程序的安全  
性、使用性与整合性,给互联网和用户带来巨大威  
胁,造成严重的损失,因此,恶意软件检测技术已  
收稿日期2018-12-07修回日期2019-05-21  
通信作者:周漫,
基金项目:国家自然科学基金资助项目(No.61272033)  
Foundation Item: The National Natural Science Foundation of China (No.61272033)  
2019135-1  
6 期  
胡建伟等:基于高斯混合模型的增量聚类方法识别恶意软件家族  
·149·  
际上是来自现有恶意软件系列的“衍生物新的  
恶意软件继承了原始恶意软件的部分功能。为了躲  
避检测并快速地部署恶意软件,黑客通常不会重新  
开发新的恶意软件,而是改进恶意软件现有的行为  
逻辑或者在现有的恶意软件中添加新的恶意行为  
逻辑,即新的恶意软件具有继承性与多态性。本文  
将具有相似行为逻辑或者相同行为目的的恶意软  
件集合称为恶意软件家族。  
建立从软件到任务的多对一的映射,证明了包括恶  
意软件在内的各类软件也是递归的,并且可以由相  
应的任务来确定。  
为了提高检测恶意软件的准确率,Kolosnjaji  
[6]提出首先在沙箱中执行恶意软件样本以收集系  
统调用,然后使用深度神经网络对恶意软件的系统  
调用序列进行建模以用于恶意软件分类。Cho [7]  
利用动态行为分析工具将 API 序列提取为恶意软件  
行为报告后使用 Malheur 进行聚类和分类分析。  
近年来,基于机器学习和数据挖掘算法的恶意  
软件行为特征的分析方法逐渐受到研究人员的重  
视。Santos [8]提出使用可执行文件的操作码序列  
频率来检测和分类恶意软件,通过这种方式来训练  
机器学习算法从而检测未知的恶意软件变种。Arp  
[9]将针对 API 函数的静态分析与机器学习算法相  
结合,以检测恶意软件。他们在向量空间中嵌入了  
特征,从向量空间中发现了恶意软件模型,并使用  
这些模型构建了机器学习检测系统。  
为了提高恶意软件检测的准确率与检测效率,  
本文提出了基于高斯混合模型(GMM, Gaussian  
mixture model)的增量聚类方法来识别恶意软件家  
族。本文的主要工作如下。  
1) 依据属于同一个家族的恶意软件的行为特  
征具有逻辑相似性这一特点,本文从行为检测的角  
度分析并识别恶意软件家族。  
2) 为了构建恶意行为特征的分析框架文利  
用静态分析与动态分析相结合的方法来提取 API 函  
数调用的抽象特征过分析 API 函数调用的参数  
依赖关系来构建恶意软件行为逻辑图。  
传统的聚类方法主要是利用批处理模型来发  
现固定特征数据库的数据集群,但是目前出现了越  
来越多的动态数据集,数据点以流形方式输入。在  
这种情况下,增量聚类可以有效地处理这样的数据  
3) 为了找到拥有整个软件家族恶意行为特征  
的恶意软件群 UM 与拥有软件家族成员共有的恶意  
行为特征的恶意软件群 CM,本文依据恶意软件家  
族行为的继承性与多样性,为特定目的的恶意软件  
家族构建 4 个行为传递闭包,并建立特征行为与恶  
意软件的一对一映射关系。  
[10]不断输入数据点时量聚类逐步更新聚  
类结果,使当前的所有数据存在一个最新的聚类。  
为了对流数据进行数据聚类Wan [11]提出了一种  
基于高斯混合模型的新型增量聚类方法,称为  
ICGTincremental clustering of GMM treeICGT  
创建并动态调整与数据流顺序一致的 GMM 树,树  
中的每个叶子节点对应于密集高斯分布,每个非叶  
子节点对应于 GMM。为了更新 GMM 树以插入新  
输入的数据点Wan 等引入了节点连接和连接子集  
的定义,并提出了树更新算法,实验结果证实所提  
方法是有效的。  
4) 针对传统聚类方法不能利用上一次聚类结  
果,从而导致耗时、资源浪费等问题,本文采用基  
于高斯混合模型的增量聚类方法来识别恶意软件  
家族,创建并动态调整与恶意软件家族的进化史相  
一致的高斯混合模型树,并引入增量学习,同时进  
行恶意软件家族的识别与恶意样本的聚类。  
2 研究背景和相关工作  
随着当前恶意软件的欺骗技术越来越成熟,以  
及各类病毒数量的急剧增加,导致传统的恶意软件  
检测技术不再有效。因此,出现了各种基于行为的  
恶意软件检测技术。Pektas [4]通过 API 调用序列  
挖掘和搜索 n-gram 从而收集代表恶意软件行为特  
征的集合。针对目前恶意软件识别率下降的现状,  
Han [5]指出造成这种困境的原因是越来越多的目  
的性恶意软件攻击已经出现,与传统恶意软件几乎  
没有共同特征。Han 等基于可判定理论,证明了任  
何软件执行的任务都是递归的和可确定的,并通过  
3 恶意软件家族识别  
基于软件家族恶意行为的依赖性与继承性[12]  
人们能为每个恶意软件家族建立一个特征库,并挑  
选出具有代表性的恶意软件集合。当出现未知的恶  
意软件时,人们可以提取它的特征,并与最具代表  
性的恶意软件集合的特征进行比对,如果具有该家  
族的恶意签名或特征,则此未知的恶意软件属于该  
恶意软件家族;否则,需要分析软件的行为特征,  
将分析出来的有意义的特征加入特征库中再进行  
2019135-2  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载