推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python正则表达式的彩票信息爬取

更新时间:2019-12-24 18:50:49 大小:767K 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

介绍了网络爬虫的基本步骤,完整介绍了使用Python语言,利用正则表达式爬取彩票网最新奖池数据的整个过程。


部分文件列表

文件名 大小
基于Python正则表达式的彩票信息爬取.pdf 767K

部分页面预览

(完整内容请下载后查看)
安徽子信息职业技术学报  
No.5 2018  
General No.98 Vol.17  
2018 5 期  
17 总第 98 ꢀ  
JOURNALOF ANHUI VOCATIONAL COLLEGE OF ELECTRONICS & INFORMATION TECHNOLOGY  
[文章编号] 1671-802X(201805-0019-03  
基于Python则表信息取  
华敏敏  
职业锡  
214028  
介绍了网爬虫完整介绍使则表奖  
Python  
:  
。  
则表爬虫  
关键Python  
图分类TP393.092  
献标B  
Lottery Information Crꢀwling Bꢀsed on Python Rꢁgulꢀr Exprꢁssion  
Shen YiHua Minmi  
(Wuxi Professional College of Science and Technology, Wuxi 214028, China)  
Abstrꢀct: This paper first introduces the basic steps of network crawlerꢀ and then introduces the whole process of  
using Python language and regular expressions to crawl the latest lottery pool data.  
Kꢁy worꢂs: Pythonꢀ regular expressionꢀ crawler  
引言  
获取  
4. 选择。  
互联网的数据集数  
访们被嵌入在网结构和  
爬虫技术来获取。  
文基于项目获取福彩奖池对  
福彩获取奖池。  
络爬虫步骤  
5. 改进爬虫。  
爬虫实现  
Python 爬虫实现文  
选择 Anaconda 发环境中的 jupyter notebook 行  
Python Python 用  
Python3.6。  
取需到数以  
:  
奖池选择  
中国管理
cwl.gov.cn/kjxx/ssq/kjgg/。  
1. 和数。  
2. 的数在其需  
的数34。  
3. 结构技术使合  
选  
基础方式使Python urllib 下  
收稿2018-01-03  
作者简介(1982-ꢁ讲师硕士研究方向E-mailsymnb6742@163.com.  
金项目基于物联网技术的互联系统(RG1620ꢁ.  
2018.10.20  
XUEBAO  
19  
技 术 应 用  
5 期  
华敏敏——基于Python则表信息取  
码如:  
'Accept': 'application/jsonꢀ text/javascriptꢀ */  
*; q=0.01ꢃꢀ  
import urllib.request  
def download(url,num_retries=2):  
print('Downloading:'ꢀurlꢁ  
ꢃAccept-Encodingꢃ: ꢃgzipꢀ deflateꢃꢀ  
ꢃAccept-Languageꢃ: ꢃzh-CNꢀzh;q=0.9ꢃꢀ  
ꢃHostꢃ: ꢃwww.cwl.gov.cnꢃꢀ  
try:  
html=urllib.request.urlopen(urlꢁ.read(ꢁ  
except urllib.request.URLError as e:  
printꢂ'Download error:'ꢀe.reasonꢁ  
ꢃRefererꢃ: ꢃhttp://www.cwl.gov.cn/kjxx/ssq/kjgg/ꢃ  
}
request = urllib.request.Request ꢄurlꢀheaders=  
html = None  
headers)  
if num_retries>0:  
try:  
if hasattr(eꢀ'code'ꢁand 500<=e.code<600:  
return downloadꢂurlꢀnum_retries-1ꢁ  
html=urllib.request.urlopenꢄrequest).readꢄ)  
except urllib.request.URLError as e:  
printꢄꢃDownload error:ꢃꢀe.reason)  
html = None  
return html.decodeꢂꢃutf-8'ꢁ  
访5XX 般  
服务,会数进下  
num_retries 用于其  
,增健壮urllib.  
request.urlopen(urlꢁ.read(ꢁ的数用  
decode('utf-8'ꢁ。  
奖池在其中,  
浏览F12 ,  
Network XHR 中发代  
访问的获取访属  
if num_retries>0:  
if hasattr ꢄeꢀꢃcodeꢃ)and 500<=e.code<  
600:  
return download ꢄurlꢀuser_agentꢀ  
num_retries-1)  
return html.decodeꢄꢃutf-8ꢃ)  
findDrawNotice?name=ssq&issueCount=30"ꢁ  
这些访访问的findDrawNotice?name=ssqꢅissueCount=30 动  
码如:  
def download (urlꢀ user_agent ='wswp'ꢀ  
num_retries=2ꢁ:  
print('Downloading:'ꢀurlꢁ  
访获取信息不能接  
访访包括 User-agentCookie  
。  
来发Json 的数奖  
据就包在其于要  
的数而且来的 Json 数  
特征接使则表实现码  
:  
Cookie = "UniqueID=o85IRQWMZ074pTYG  
1534317268148; Sites=_21; _ga=GA1.3.658495060.1  
533722035; _gid =GA1.3.2019965112.1534 -317269;  
21_vq=35"  
headers = {  
import re  
'User-agent': 'Mozilla/5.0 ꢄWindows NT 10.0;  
Win64; x64ꢁ AppleWebKit/537.36 ꢄKHTMLꢀ like  
Geckoꢁ Chrome/68.0.3440.106 Safari/537.36'ꢀ  
'Cookie': Cookieꢀ  
html  
cwl_admin/kjxx/findDrawNotice?name  
ssqꢅissueCount=30"ꢁ  
=
=
re.findall(ꢃ\"poolmoney\":\"(.*?ꢁ"ꢃꢀhtmlꢁ[0]  
'Connection': 'keep-alive'ꢀ  
奖池经  
2018.10.20  
XUEBAO  
20  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载