您现在的位置是：首页 > 技术资料 > 基于Python正则表达式的彩票信息爬取

推荐星级：

基于Python正则表达式的彩票信息爬取

更新时间：2019-12-24 18:50:49 大小：767K 上传用户：songhuahua 查看TA发布的资源 标签：python 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

介绍了网络爬虫的基本步骤,完整介绍了使用Python语言,利用正则表达式爬取彩票网最新奖池数据的整个过程。

部分文件列表

文件名	大小
基于Python正则表达式的彩票信息爬取.pdf	767K

立即下载

【关注视频号领20积分】【关注公众号立即送20积分】

部分页面预览

（完整内容请下载后查看）

安徽电子信息职业技术学院学报

No.5 2018

General No.98 Vol.17

2018 年第 5 期

第 17 卷（总第 98 期ꢀ

JOURNALOF ANHUI VOCATIONAL COLLEGE OF ELECTRONICS ＆ INFORMATION TECHNOLOGY

[文章编号] 1671-802X（2018）05-0019-03

基于Python正则表达式的彩票信息爬取

沈漪，华敏敏

（无锡科技职业学院，江苏无锡

）

214028

介绍了网络爬虫的基本步骤，完整介绍了使用语言，利用正则表达式爬取彩票网最新奖

Python

摘

要:

池数据的整个过程。

；正则表达式；爬虫

关键词：Python

中图分类号：TP393.092

文献标识码：B

Lottery Information Crꢀwling Bꢀsed on Python Rꢁgulꢀr Exprꢁssion

Shen Yi， Hua Minmi

（Wuxi Professional College of Science and Technology， Wuxi 214028， China）

Abstrꢀct: This paper first introduces the basic steps of network crawlerꢀ and then introduces the whole process of

using Python language and regular expressions to crawl the latest lottery pool data.

Kꢁy worꢂs: Pythonꢀ regular expressionꢀ crawler

一、引言

适的方法获取相关动态网页内容。

4. 选择合适的方法抓取数据。

互联网包含了最有用的数据集，并且大部分数

据可以免费公开访问。它们被嵌入在网站的结构和

样式当中，可以通过网络爬虫技术来获取。

本文基于项目中获取福彩奖池数据的需求，对

福彩网站进行爬取，获取最新的奖池数据。

二、网络爬虫基本步骤

5. 改进优化，提高爬虫效率。

三、爬虫实现

Python 语言是进行爬虫实现的最佳语言，本文

选择 Anaconda 开发环境中的 jupyter notebook 进行

Python 开发调试与分析，Python 版本选用

Python3.6。

从明确爬取需求到数据爬取成功，一般包含以

下步骤：

首先，能抓到奖池数据的网站比较多，本文选择

中国福利彩票发行管理中心官方网站

cwl.gov.cn/kjxx/ssq/kjgg/进行爬取。

1. 明确要爬取的网站和数据。

2. 下载网页，如需抓取的数据不在其中，即需

抓取的数据在动态网页中，执行 3，否则执行 4。

3. 分析网页结构，根据不同的动态技术使用合

要想爬取网页，我们首先将其下载下来。我们选

择最基础的方式使用 Python 的 urllib 模块进行下

＊收稿日期：2018-01-03

作者简介：沈漪（1982-ꢁ，女，江苏无锡人，讲师，硕士，研究方向：软件开发。E-mail：symnb6742＠163.com.

基金项目：校级共推互聘项目“基于物联网技术的移动互联式新型发布系统”（RG1620ꢁ.

2018.10.20

XUEBAO

技术应用

第 5 期

沈

漪＊华敏敏——基于Python正则表达式的彩票信息爬取

载，代码如下：

'Accept': 'application/jsonꢀ text/javascriptꢀ */

*; q=0.01ꢃꢀ

import urllib.request

def download（url，num_retries=2）:

print（'Downloading:'ꢀurlꢁ

ꢃAccept-Encodingꢃ: ꢃgzipꢀ deflateꢃꢀ

ꢃAccept-Languageꢃ: ꢃzh-CNꢀzh;q=0.9ꢃꢀ

ꢃHostꢃ: ꢃwww.cwl.gov.cnꢃꢀ

try:

html=urllib.request.urlopen（urlꢁ.read（ꢁ

except urllib.request.URLError as e:

printꢂ'Download error:'ꢀe.reasonꢁ

ꢃRefererꢃ: ꢃhttp://www.cwl.gov.cn/kjxx/ssq/kjgg/ꢃ

}

request = urllib.request.Request ꢄurlꢀheaders=

html = None

headers）

if num_retries>0:

try:

if hasattr（eꢀ'code'ꢁand 500<=e.code<600:

return downloadꢂurlꢀnum_retries-1ꢁ

html=urllib.request.urlopenꢄrequest）.readꢄ）

except urllib.request.URLError as e:

printꢄꢃDownload error:ꢃꢀe.reason）

html = None

return html.decodeꢂꢃutf-8'ꢁ

代码中对于访问网站时出现 5XX 的错误（一般

是服务器出现问题），会递归调用函数进行重试下

载，参数 num_retries 用于设定重试下载的次数，其

默认值为两次，增强了代码的健壮性。由于 urllib.

request.urlopen（urlꢁ.read（ꢁ返回的是字节型的数据，用

decode（'utf-8'ꢁ转化成相应字符数据。

网页下载下来以后，发现奖池数据并不在其中，

利用浏览器的 F12 网页分析工具对网页进行分析，

在 Network 模块 XHR 选项中发现动态行为，分析代

码找到相应动态访问的网址，并获取到相关访问属

if num_retries>0:

if hasattr ꢄeꢀꢃcodeꢃ）and 500<=e.code<

600:

return download ꢄurlꢀuser_agentꢀ

num_retries-1）

return html.decodeꢄꢃutf-8ꢃ）

findDrawNotice?name=ssq＆issueCount=30"ꢁ

其中，

性，按照这些访问属性对动态访问的网址进行下载。 findDrawNotice?name=ssqꢅissueCount=30 为网页动

代码如下：

def download （urlꢀ user_agent ='wswp'ꢀ

num_retries=2ꢁ:

print（'Downloading:'ꢀurlꢁ

态访问获取彩票中奖信息的网址，该网址不能直接

访问，要设置相关访问属性，包括 User-agent、Cookie

等。

下载下来发现，返回的是 Json 格式的数据，奖

池数据就包含在其中。然后，进行数据抓取，由于要

抓取的数据量较小，而且在下载下来的 Json 格式数

据中特征明显，我们直接使用正则表达式实现。代码

如下：

Cookie = "UniqueID=o85IRQWMZ074pTYG

1534317268148; Sites=_21; _ga=GA1.3.658495060.1

533722035; _gid =GA1.3.2019965112.1534 -317269;

21_vq=35"

headers = {

import re

'User-agent': 'Mozilla/5.0 ꢄWindows NT 10.0;

Win64; x64ꢁ AppleWebKit/537.36 ꢄKHTMLꢀ like

Geckoꢁ Chrome/68.0.3440.106 Safari/537.36'ꢀ

'Cookie': Cookieꢀ

html

cwl_admin/kjxx/findDrawNotice?name

ssqꢅissueCount=30"ꢁ

re.findall（ꢃ\"poolmoney\":\"（.*?ꢁ"ꢃꢀhtmlꢁ[0]

'Connection': 'keep-alive'ꢀ

代码返回的就是我们需要的最新奖池数据。经

2018.10.20

XUEBAO

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic小能手打赏10.00元 3天前

资料：基于STM32的音乐播放器电路+PCB源文件+源码等
21ic小能手打赏10.00元 3天前

资料：USART文本数据包——TEXT数据包模式 keil平台原创教程
21ic小能手打赏10.00元 3天前

资料：USART收发数据包 HEX数据包模式 keil教程开发原创详细
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏310.00元 3天前

用户：liqiang9090
21ic下载打赏310.00元 3天前

用户：zhengdai
21ic下载打赏160.00元 3天前

用户：w1966891335
21ic下载打赏160.00元 3天前

用户：w178191520
21ic下载打赏160.00元 3天前

用户：kk1957135547
21ic下载打赏40.00元 3天前

用户：WK520077778
21ic下载打赏40.00元 3天前

用户：sun2152
21ic下载打赏30.00元 3天前

用户：xuzhen1
21ic下载打赏50.00元 3天前

用户：铁蛋锅
21ic下载打赏30.00元 3天前

用户：xzxbybd
21ic下载打赏40.00元 3天前

用户：z00
21ic下载打赏40.00元 3天前

用户：forgot
21ic下载打赏40.00元 3天前

用户：happypcb
21ic下载打赏20.00元 3天前

用户：zhaoqshan
21ic下载打赏5.00元 3天前

用户：17724187683
21ic下载打赏5.00元 3天前

用户：zmm1818

21ic小能手打赏15.00元 3天前

资料：16通道相控阵TR组件原理图与PCB(原创)
21ic小能手打赏5.00元 3天前

资料：基于FPGA的交通灯设计课程设计
21ic小能手打赏5.00元 3天前

资料：UC3843 12V 2.5A原理图和变压器制作方案设计
chenruiji 打赏1.00元 3天前

资料：血糖仪原理图
21ic小能手打赏5.00元 3天前

资料：基于51单片机的酒精检测设计方案源码
21ic小能手打赏5.00元 3天前

资料：基于STM32出租车计价器实验例程
21ic小能手打赏5.00元 3天前

资料：基于FreeRTOS的语音桌宠实验例程
21ic小能手打赏10.00元 3天前

资料：基于stm32和esp32的共享充电宝项目
21ic小能手打赏5.00元 3天前

资料：基于ROS2和STM32的摘桃机器人
21ic小能手打赏10.00元 3天前

资料：一辆控制系统稳定的无人驾驶汽车
21ic小能手打赏5.00元 3天前

资料：基于STM32F103与FreeRTOS系统开发的航模遥控辅助控制器
21ic小能手打赏5.00元 3天前

资料：基于STM32H745的网络天气数码相框
21ic小能手打赏5.00元 3天前

资料：测试智能语音控制模块
21ic小能手打赏5.00元 3天前

资料：STM32通过串口实现ESP8266模块连接
21ic小能手打赏5.00元 3天前

资料：单片机开发教程资料合集内容
21ic小能手打赏10.00元 3天前

资料：氮化镓65W快充最新方案资料包
21ic小能手打赏10.00元 3天前

资料：200W开关电源高P半桥全套方案资料
cai0603 打赏3.00元 3天前

用户：CJQ_ENJOY
21ic小能手打赏5.00元 3天前

资料：基于STM32f103c8t6的can回环测试

基于Python正则表达式的彩票信息爬取

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

推荐下载

专栏首页