推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的51-job数据抓取程序设计

更新时间:2019-12-24 16:10:46 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python数据抓取 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

为了快速地获取职位信息,根据“前程无忧”的网页特点,设计了3种基于Python的爬虫程序,进行职位相关数据的抓取。通过对关键字的提取,匹配符合条件的职位信息,并且抓取相关内容存入Excel文件中,便于寻找相关职位信息及具体要求。实验结果表明:该程序能够快速且大量地抓取相关职位信息,针对性强,简单易读,有利于对职位信息的进一步挖掘及分析。


部分文件列表

文件名 大小
基于Python的51-job数据抓取程序设计.pdf 2M

部分页面预览

(完整内容请下载后查看)
doi: 10.3969 /j.issn.1003 3114.2018.04.21  
51 job  
201844( 4) : 416 419.  
无线电通信技术  
: , , , .  
引用格式 崔玉娇 孙冰 祁于  
Python  
J.  
数据设计  
CUI YujiaoSUN JiebingQI Xiaoboet alDesign on 51 job Data Scraping Program Based on Python JRadio Communications  
Technology201844( 4) : 416 419]  
51 job  
据抓取程序计  
Python  
基于  
, , , ,  
娇 孙结冰 祁波 凌 朱 勇  
(
大学 电子工哈尔滨  
150080)  
:
“ ” 3  
信息 根前程于  
Python  
位  
, ,  
数据关键信息 取相关内入  
Excel  
便相  
: , , ,  
信息及实验取相信息 对性对  
信息的进一挖掘分析  
: Python;  
; ;  
爬虫 职前程忧  
关键词  
- - -  
: 1003 3114( 2018) 04 0416 04  
: TN911.7  
: A  
中图分类号  
文献标志码  
文章编号  
Design on 51-job Data Scraping Program Based on Python  
CUI YujiaoSUN JiebingQI XiaoboLING QiangZHU Yong  
( School of Electronic EngineeringHeilongjiang UniversityHarbin 150080China)  
Abstract: In order to obtain job information quicklyaccording to the characteristics of web pages withWorry-free Futurethree  
kinds of Python-based crawler programs are designed to capture job-related data. Through the extraction of the keywordsthe job  
information is matchedand the relevant content is captured in an Excel fileso that the related job information and specific  
requirements can be easily found. The experimental results show that this program can quickly and massively capture relevant job  
informationand it is highly targeted and easy to readwhich is conducive to further mining and analysis of job information.  
Key words: Python; crawler; position; Worry-free Future  
0
、 、 、 、 、  
工作题 地工作内  
引言  
着互联网时代的速发展 大数据可以通  
、 。  
招聘以及发期 并获得的信在  
过互联网获得 出户世界千  
。  
供后数据挖掘本文爬虫序  
1]  
,  
们可互联网招聘不  
3 ,  
爬虫方法 包括  
ReXPathBeatuifulSoup,  
化  
,  
局限杂志质媒使以  
自行爬虫方法 的  
9  
有效地获得招聘和  
, ,  
通过获得相应息  
4
工作的有效地获得  
1
相关概念  
,  
招聘息成一步 本文设计  
1.1 Python  
言  
python  
爬虫前国的  
于  
Python  
,  
理  
“  
招聘 忧  
58  
,  
城 等 本  
WindowsLinux  
;
行  
在  
“ ”  
要对 前招聘取并析  
Python  
、  
是一有效单  
3 4]  
数据一 用最  
Python  
点  
是一种  
Python  
方法 对此问题一步优  
, ,  
简洁支持使得  
3 , ,  
设计 数据方法 可自行且  
很多平台是一个比语  
5]  
。  
招聘设计合  
速的应用开发  
Python  
2]  
户使用体好  
络协议各个的网络协  
本文通过爬虫包括  
:
使使序逻辑一  
次  
Python  
各  
- -  
: 2018 04 20  
收稿日期  
416  
Radio Communications Technology  
Vol. 44 No. 4 2018  
6 7]  
的开发速度  
,  
逻辑 是一文本在  
1.2  
爬虫  
搜索文本个或多个串  
8]  
的网息 可以将的  
( Web Crawler) ,  
爬虫  
是一种按照的  
Re  
中  
:
用  
取  
Web  
应用它  
=
<span class " dw_c_orange" ( ?: \ d) /span>.* ? /.  
是在搜索成数据一步 可在  
+
* ? ( \d )  
#
数  
Internet  
Internet  
爬虫上  
=
<span>.* ? a( ?: * ?) title " ( * ?) " #  
9 10]  
位  
的网考  
爬虫是从一个  
称  
=
'<span>.* ? <a( ?: * ?) href " ( * ?) " #  
URL,  
通过的  
或多个的  
位  
URL, , ,  
的网通过继  
 
<span class " t2" >.* ? <a( ?: .* ?) title " ( .* ?) " #  
称  
<span class " t3" >( .* ?) /span> #  
11]  
, ,  
分  
的网接  
=
=
,  
析所情况情况 根  
数据 搜索个  
=
工作点  
12]  
=
<span class " t4" >( .* ?) /span>#  
互联网的网页  
资  
=
<span class " t5" >( * ?) /span>#  
工作发的  
2
设计  
期  
5 ,  
本文爬虫据  
=
<div class " bmsg job_msg inbox" ( * ?) <div#  
取  
Request URL Re、  
需要数据过  
详细息  
XPathBeautifulSoup  
三种符  
通过信  
、 、  
条件包括工作题 地点  
详细解  
、 、 、  
工作内容 招聘以及发布  
要求以及相关工作信通过述  
, ,  
期 并便数据挖掘析  
的信的  
Excel  
文件  
2.1  
息  
方便看  
之前需要的信从  
2.4 XPath  
设计  
出需要的信开  
Chrome  
XPath  
XML  
径语是一用来确定  
为  
, , ,  
进入的网开开发到  
XML(  
言  
包括属性文本点  
XPath  
)
用标言的位  
network,  
取  
URL  
head-  
以及的  
的  
16]  
13]  
XPath  
XML  
不同  
于  
ers  
preview  
码  
从源到需要的信息 即工作称  
提供在数据起初  
、 、 、 、 、  
题 地工作内容 招聘网  
将其作为于  
XPointer  
以及发期 并下一的  
offset  
XSLT  
是  
XPath  
快地开发  
便爬虫设计中使用  
用来言  
XPath Re  
2.2  
设计  
BeautifulSoupXPathRegex  
Re ,  
错  
于  
些  
三种方法文件  
获 得 需 要 的 信 在  
, ,  
打包设计进入面  
Chrome XPath Helper  
加  
成  
页  
示信爬虫方法  
XPath  
方便不  
, ,  
据用进入需要  
错  
启动爬虫数  
14]  
XPath  
, :  
中  
后 提数据毕  
=
=
div@ class " rt"/span@ class " dw_c_orange" #  
数  
div@ id 'resultList/div@ class 'el'#  
文件 供用使析  
2.3 Re  
设计  
=
=
工  
( Re)  
式  
(
(
包括普符 例  
) ( ) )  
特殊符  
表  
=
/p@ class 't1 /span/a#  
a~z  
工作称  
作的逻辑是用事些特定  
=
/p@ class 't1 /span/a/attribute: : href#  
位  
“  
些特成一符  
接  
/span@ class 't2/a/text( ) #  
称  
15]  
=
“ ”  
用来表达对种  
2018  
44  
4
卷第 期  
417  
无线电通信技术  
年第  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载