您现在的位置是：首页 > 技术资料 > 浅谈Python爬虫技术的网页数据抓取与分析

推荐星级：

浅谈Python爬虫技术的网页数据抓取与分析

更新时间：2019-12-22 14:19:51 大小：2M 上传用户：songhuahua 查看TA发布的资源 标签：python 网页数据抓取 下载积分：1分评价赚积分（如何评价?）收藏评论(0) 举报

资料介绍

近年来,随着互联网的发展,如何有效地从互联网获取所需信息已成为众多互联网企业竞争研究的新方向,而从互联网上获取数据最常用的手段是网络爬虫。网络爬虫又称网络蜘蛛和网络机器人,它是一个程序,可以根据特定的规则和给定的URL自动收集互联网数据和信息。文章讨论了网络爬虫实现过程中的主要问题:如何使用python模拟登录、如何使用正则表达式匹配字符串获取信息、如何使用mysql存储数据等,并利用python实现了一个网络爬虫程序系统。

部分文件列表

文件名	大小
浅谈Python爬虫技术的网页数据抓取与分析.pdf	2M

立即下载

【关注视频号领20积分】【关注公众号立即送20积分】

部分页面预览

（完整内容请下载后查看）

Computer Era No. 8 2019

·94·

DOI:10.16644/j.cnki.cn33-1094/tp.2019.08.027

浅谈Python爬虫技术的网页数据抓取与分析

吴永聪

(广东省佛山市南海区卫生职业技术学校，广东佛山 528211)

摘

要：近年来，随着互联网的发展，如何有效地从互联网获取所需信息已成为众多互联网企业竞争研究的新方向，

而从互联网上获取数据最常用的手段是网络爬虫。网络爬虫又称网络蜘蛛和网络机器人,它是一个程序，可以根据特

定的规则和给定的 URL 自动收集互联网数据和信息。文章讨论了网络爬虫实现过程中的主要问题：如何使用 python

模拟登录、如何使用正则表达式匹配字符串获取信息、如何使用 mysql 存储数据等，并利用 python 实现了一个网络爬

虫程序系统。

关键词：网络爬虫；Python；MySQL；正则表达式

中图分类号：TP311.11

文献标志码：A

文章编号：1006-8228(2019)08-94-03

Discussion on Web data grabbing and analyzing with Python crawler technology

Wu Yongcong

（Nanhai District Health Vocational Technical School, Foshan, Guangdong 528211, China）

Abstract： In recent years, with the development of the Internet, how to effectively obtain the required information from the

Internet has become a new direction that many Internet companies are competing to research, and the most common means of

obtaining data from the Internet is the web crawler. Web crawlers are also known as web spiders or web robots, it is a program

that automatically collects Internet data and information according to a given URL and a specific rule. In this paper, the main

issues in the implementation of web crawlers are discussed, such as how to use Python to simulate login, how to use regular

expressions to match strings to get information and how to use MySQL to store data, and so on. At the end, a Python-based web

crawler program system is realized through the research of Python language.

Key words：web crawler；Python；MySQL；regular expression

比其他高级编程语言更简单、更易阅读和理解。因

0 引言

此，使用Python来实现Web爬虫是一个很好的选择。

在网络信息和数据爆炸性增长的时代，尽管互联

网信息技术的飞速发展，从如此庞大的信息数据中仍

然很难找到真正有用的信息。于是，谷歌、百度、雅虎

等搜索引擎应运而生。搜索引擎可以根据用户输入

的关键字在Internet上检索网页，并为用户查找与关键

字相关或包含关键字的信息。网络爬虫作为搜索引

擎的重要组成部分，在信息检索过程中发挥着重要的

作用。因此，网络爬虫的研究，对于搜索引擎的发展

具有十分重要的意义。对于编写网络爬虫，python 有

其独特的优势。例如，python中有许多爬虫框架，这使

得 web 爬虫更高效地对数据进行爬行。同时，Python

是一种面向对象的解释性高级编程语言。它的语法

1 网络爬虫的概述

1.1 网络爬虫的原理

网络爬虫，又称网络蜘蛛和网络机器人，主要用

于收集互联网上的各种资源。它是搜索引擎的重要

组成部分，是一个可以自动提取互联网上特定页面

内容的程序。通用搜索引擎Web爬虫工作流^[1]：①将种

子URL放入等待抓取URL队列；②将等待URL从等待

URL队列中取出，进行读取URL、DNS解析、网页下载

等操作；③将下载的网页放入下载的网页库；④将下

载的网页 URL 放入已爬 URL 队列；⑤分析已爬 URL

收稿日期：2019-03-29

作者简介：吴永聪（1988-），男，广东高州人，本科，中职计算机教师，主要研究方向：计算机程序设计。

计算机时代 2019 年第 8期

·95·

队列中的 URL 提取新的 URL 被放置在要等待抓取

URL队列中，并进入下一个爬网周期。

数据存储到数据库一些数据保存到数据库，存储到本

地 txt 文件，同时能够把相册动态中的图片下载到本

地，且把相册信息也记录下来，在每一页的操作完成

后可以进行翻页和选页，继续操作。因此该系统应该

满足以下要求。

爬虫的工作流程：①通过 URL 抓取页面代码；②

通过正则匹配获取页面有用数据或者页面上有用的

URL；③处理获取到的数据或者通过获取到的新的

URL进入下一轮抓取循环。

(1) 能够通过验证码的验证模拟登录豆瓣网。即

不需要通过浏览器登录，通过在控制台输入用户名、

密码和验证码实现登录豆瓣网。

1.2 网络爬虫的分类

网络爬虫大体上可以分为通用网络爬虫，聚焦网

络爬虫^[2]。

(2) 登录成功后能够爬取豆瓣网首页页面代码。

即通过登录成功后的cookie能够访问游客权限不能访

问的页面并把页面代码抓取下来。

通用网络爬虫，也叫全网爬虫，它从一个或者多

个初始 URL 开始，获取初始页面的代码，同时从该页

面提取相关的URL放入队列中，直到满足程序的停止

条件为止。相比于通用网络爬虫，聚焦网络爬虫的工

作流程比较复杂，它需要事先通过一定的网页分析算

法过滤掉一些与主题无关的URL，确保留下来的URL

在一定程度上都与主题相关，把它们放入等待抓取的

URL队列。然后再根据搜索策略，从队列中选择出下

一步要抓取的 URL，重复上述操作，直到满足程序的

停止条件为止。聚焦网络爬虫能够爬取到与主题相

关度更高的信息，例如：为了快速地获取微博中的数

据，可以利用聚焦爬虫技术开发出一个用来抓取微博

数据的工具^[3-5]。在如今大数据时代，聚焦爬虫能做到

大海里捞针，从网络数据海洋中找出人们需要的信

息，并且过滤掉那些“垃圾数据”（广告信息等一些与

检索主题无关的数据）。

(3) 能够在页面代码中提取出需要的信息。即需

要通过正则表达式匹配等方法，从抓取到的页面上获

取到有用的数据信息。

(4) 能够实现翻页和选页的功能。即在访问网站

动态页面时，能够通过在控制台中输入特定的内容进

行翻页或输入页码进行选页，然后抓取其它的页面。

(5) 实现关键字查询的功能，对查到的数据爬取

下来并存储到数据库表中。即在抓取到的页面上获

取数据时，能够通过在控制台输入关键字来爬取所

需的信息。

(6) 对爬取到的图片URL能够下载到本地并把图

片的详细信息存储到本地 txt^[12]。即不仅要把图片下

载到本地，还要把图片的主题信息，图片的所属用户，

图片的具体URL等信息存储到txt文件。

(7) 对日记和其他的动态信息存储到本地不同的

文件中。即对抓取到的不同的数据信息进行不同的

存储方式和存储路径。

2 Python

Python的作者是一个荷兰人Guido von Rossum，

1982 年，Guido 从阿姆斯特丹大学获得了数学和计算

机硕士学位^[6]。相比于现在，在他的那个年代里，个人

电脑的主频和RAM都很低，这导致电脑的配置很低。

为了让程序能够在个人电脑上运行，所有的编译器的

核心都是做优化，因为如果不优化，一个大一点的数

组就能占满内存。Guido 希望编写出一种新的语言，

这种语言应该具有功能全面，简单易学，简单易用，并

且能够扩展等特点。1989 年，Guido 开始编写 Python

语言的编译器。

(8) 在登录成功的情况下能够进入个人中心中把

当前用户关注的用户的信息存储到数据库表中。这

些信息可能包括用户的 id，昵称，主页 url，个性签名

等等。

以上就是本课程爬虫系统的一些基本需求，根据

这些需求就可以明确系统的功能。由于本系统注重

网络信息资源的爬取，所以在用户交互方面可能不太

美观，在该系统中并没有编写界面，所有的操作都在

Eclipse的控制台中进行。例如：在控制台中输入用户

名、密码和验证码进行登录，登录成功后的页面选择，

页面选择后的数据爬取等。

3 系统分析

本系统是基于Python的网络爬虫系统，用于登录

并爬取豆瓣网的一些相册、日记、主题、评论等动态的

数据信息。并且能够把通过关键字查询的动态信息

但是，系统运行后爬取的数据可以在存储数据的

本地txt文件中或者在数据库中查看。所以，本系统是

否真的能够爬取到数据的测试就可以通过观察本地

全部评论(0)

暂无评论

评论赚积分>>

上传资源

浅谈Python爬虫技术的网页数据抓取与分析

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

推荐下载

专栏首页