推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于python的WEB数据挖掘技术实现与研究

更新时间:2019-12-23 22:48:22 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:pythonweb数据挖掘 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

关 键 词】 python语言 数据挖掘技术 仿真实验


部分文件列表

文件名 大小
基于python的WEB数据挖掘技术实现与研究.pdf 1M

部分页面预览

(完整内容请下载后查看)
22卷第8  
20198  
Vol.22 No.8  
Aug. 2019  
软件工程  
SOFTWARE ENGINEERING  
文章编号:  
2096-1472(2019)-08-21-03  
DOI:10.19644/j.cnki.issn2096-1472.2019.08.007  
基于pythonWEB数据挖掘技术实现与研究  
齐  慧  
(山东科技职业学院信息工程系,山东 潍坊 261053)  
   要:文章首先对web数据挖掘技术进行概括,分别从数据挖掘技术概念、技术应用优势与技术原理三方面进  
行论述。其次,重点探讨基于python基础上的web数据挖掘技术开发设计方法,对数据挖掘过程中的各类爬虫技术应用  
优势进行对比,可以作为数据挖掘系统构建过程中的理论参照。  
关键词:python语言;数据挖掘技术;仿真实验  
中图分类号:  
文献标识码:  
A
TP309  
Research and Implementation of WEB Data Mining Technology Based on Python  
QI Hui  
( Shandong Vocational College of Science and Technology,Department of Information Engineering,Weifang 261053,China)  
Abstract:This paper firstly summarizes web data mining technology,discussing the concept,application advantages and  
principles of data mining technology.Secondly,it mainly discusses the development and design methods of web data mining  
technology based on python,and compares the application advantages of various crawler technologies in the process of data  
mining,which can be used as a theoretical reference in the construction of data mining system.  
Keywords:Python;data mining technology;simulation experiments  
广阔的应用前景。网络环境中的各类数据信息资源,并没有  
1 引言(Introduction)  
运用web数据挖掘技术,能够模拟出用户基于网络环境  
中的浏览过程,并根据用户操作过程中的使用功能需求,自  
动跳转至指定的信息页面。通过数据挖掘,将无序并且数量  
庞大的信息自动提取存储,将其整理成为结构化的信息形  
[1]。一方面,方便用户在信息浏览过程中对自身需要的数据  
进行存储,另一方面也能够根据数据挖掘对各类功能进行表  
达,满足用户信息浏览过程中的不同需求。数据挖掘技术使  
用范围十分广阔,能够用于不同区域,并且在功能整合过程  
中也能够根据最终的综合控制能力,判断接下来的数据挖掘  
方向[2]。数据挖掘技术是存储功能实现不可缺少的基础,也具  
有极强的整合能力,能够与其他技术方法相结合,高效便捷  
的完成数据捕捉和存储。数据挖掘技术在不同领域均充当着  
重要角色,将web数据挖掘技术,与学习型汇编语言相结合,  
在程序设计过程中更能够体现出人性化功能,也能处于网络  
环境下,对数据信息进行高效定位,实现安全便捷的数据挖  
掘以及功能指令传输。  
固定结构存在。浏览网络信息中对于其中的有用数据提取往  
往会消耗过多时间。通过互联网技术普及,数据挖掘技术的  
应用能够将零散的信息进行整合,并根据用户不同使用功能  
选择自动或手动的挖掘存储[3]。数据挖掘技术在信息整合速度  
上十分快,具有极强的技术适应能力,应用该技术能够体现  
出不同挖掘项目之间的统筹能力,并根据挖掘过程中体现出  
的多角度问题[4]。新型技术应用方向调整,基于python语言  
基础上的网络系统设置,能够明显降低数据传输过程中的误  
差,并帮助查找遗漏,对遗漏数据自动填补。尤其是面对统  
计任务量较大的数据时,能够快速完成信息分类对接,并根  
据用户使用过程中的各类规则,对程序进行调整,纠正程序  
中存在的错误。数据挖掘过程中,能够确定数据传输的最佳  
路径,从而在传输过程中节省时间。由此可见,数据挖掘技  
术具有明显的发展优势,未来技术发展中,也将进入到更理  
想的状态中,通过不同汇编语言之间的相互结合,达到理想  
的设计效果。  
2 数据挖掘技术发展优势(Development advantages  
of data mining technology)  
随着网络信息技术不断发展进步,数据挖掘技术也具有  
3 数据挖掘技术应用原理(Application principle of  
data mining technology)  
数据挖掘技术在应用过程中的功能实现,通过对用户基  
                                                   软件工程                                                 
   
2019 8  
22  
于网络环境中浏览信息的脚本捕捉,自动进行有效数据信息  
访问界面,从而进入到另一个爬行分支中进行相关数据的挖  
排序,并根据用户所发出的功能指令对有用信息进行子集合  
掘整理,直到对所有链接的深层次分析结束后,完成整体爬  
行任务。算法流程语言如下:  
构建,并对信息系统中的数据进行访问。访问wed页面内的  
相关内容后,根据反复的信息验证。数据挖掘功能原理如图  
import re  
1所示。  
from bs4 import BeautifulSoup  
print bsObj。prettify  
urls=soup.findAll(”a”,hrel=True)  
defgetLink(countryUrl);  
html=urlopen('  https://baike.baidu.com/'+  
itemUrl)  
bsObj=BeautifulSoup(html,'html.parser')  
returnbsObj.finall(“a”,href=re.compie(“”(/item/)  
((?!:).)* ba  
sicInfo-item value”))  
图1 数据挖掘原理  
links=getLinks(“https://baike.baidu.com/item/%  
E5% 9B%  
Fig.1 Data mining principle  
确定最终的有用信息结合范围,从而实现子页面内的  
各类数据结合,进行切实有效的数据信息分类与整合。信息  
分类整合同样是实现模块化管理的基础,也是数据挖掘功能  
实现的原理,在数据挖掘过程中,会涉及不同爬虫算法的使  
用,选择的爬虫算法直接关系到数据信息挖掘,提取速度与  
最终的数据集合构成稳定性。数据挖掘技术在功能实现方  
面,需要对不同爬虫算法进行对比,从用户登录web页面后  
的起始页至最后一页进行连续的数据提取逐渐向外层延伸,  
并构建多角度信息获取链接,自动实现信息的捕捉[5]。数据挖  
掘与数据提取是相对应的功能,挖掘后并确定数据的来源范  
围,才能进行下一步功能构建。提取数据后并将其发送到指  
定的功能层,在页面功能实现过程中,筛选有用信息并进行  
结构化整合,经过数据搜索与分析最终确定挖掘对象,实现  
一系列数据提取功能。  
BD%E5%AE%B6/17205”)  
whilelen(links)>0  
links=getLinks(newCountry)  
for link in bsObj.findALL(“a”)  
if“href”in link.attrs;  
print(links.attrs[‘href’]  
该种分析方法,能够确保挖掘信息的深度,但如果在  
挖掘过程中,需要对更深层次的数据进行捕捉,将会消耗大  
量的分析资源。深度优先算法对于低层站点的数据挖掘和统  
计,这种效果并不理想,并且在最终的数据对比分析中,容  
易在某一链接范围内产生误差。因此该种技术手段应用,还  
需要进行技术方法之间的相互结合,达到最佳控制效果。  
4.3 数据结构化存储  
数据结构化存储也是数据挖掘过程中最常使用的技术手  
段,结构性存储能够针对原本杂乱无序的数据信息进行归类  
整合,并达到最佳的结构化存储形式。通过无结构信息的提  
取,并将其整合成为另一种链接形式,存储到本地文档中。  
能够确保数据信息的存储形式得到规范统一,并在执行过程  
通过人工整合达到最理想的场景构建模式。在存储过程中,  
结构化处理需要确保准确度与速度,既要满足多链接数据挖  
掘需求,同时也能够根据存储结构的调整,快速实现各链接  
之间的相互结合。结构化存储功能对于数据的综合处理能力  
十分快,处于Web环境下能够实现数据信息的自动结构调  
整,并通过结构之间的相互转换,减少人工操作带来的数据  
误差,结构图见图2。  
4 数据挖掘技术中的算法比较(Comparison of  
algorithms in data mining)  
4.1 广度优先算法  
数据挖掘技术应用过程中,算法的比较研究内容比较  
多,首先是广度优先的算法策略,在计算过程中从起始页到  
最终的页面,要进行由内而外的延伸运算。并对多链接信息  
进行整合,在数据挖掘过程中自动进入到下一集层的深度  
中,确保数据挖掘在web网络环境中的广度。在挖掘分析过程  
中,对不同目录进行深入分析,确保挖掘过程中的分析内容  
涵盖整体目录。其优势在于广度优先策略,在运算过程中精  
准度十分高,其劣势在于挖掘过程中对目录分析将会耗费大  
量时间。广度优先算法主要是针对目录精准排查,实现链接  
的提取与扣件。能够进行算法的并行处理,同时在Web信息  
的挖掘,提取出多少也会有所提升。如果挖掘数据信息涉及  
到深层目录,最终的功能将会受到影响。  
 
4.2 深度优先算法  
深度优先算法应用在数据挖掘技术中,注重在同一区域  
范围内的深层次数据捕捉。根据用户的浏览内容在当前页面  
访问时,会进行深层次数据挖掘,直到在当前页面的最深点  
数据挖掘成功后,视为完成一个分支任务。并返回到最初的  
图2 数据结构优化图  
Fig.2 Data structure optimization diagram  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载