推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

浅谈Python爬虫技术的网页数据抓取与分析

更新时间:2019-12-22 14:19:51 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python网页数据抓取 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

近年来,随着互联网的发展,如何有效地从互联网获取所需信息已成为众多互联网企业竞争研究的新方向,而从互联网上获取数据最常用的手段是网络爬虫。网络爬虫又称网络蜘蛛和网络机器人,它是一个程序,可以根据特定的规则和给定的URL自动收集互联网数据和信息。文章讨论了网络爬虫实现过程中的主要问题:如何使用python模拟登录、如何使用正则表达式匹配字符串获取信息、如何使用mysql存储数据等,并利用python实现了一个网络爬虫程序系统。


部分文件列表

文件名 大小
浅谈Python爬虫技术的网页数据抓取与分析.pdf 2M

部分页面预览

(完整内容请下载后查看)
Computer Era No. 8 2019  
·94·  
DOI:10.16644/j.cnki.cn33-1094/tp.2019.08.027  
Python虫技术的网页数据抓取与分析  
吴永聪  
(广东省佛山市南海区卫生职业技术学校,广东 佛山 528211)  
要:近年来着互联网的发展何有效地从互联网获取所需信息已成为众多互联网企业竞争研究的新方向,  
而从互联网上获取数据最常用的手段是网络爬虫。网络爬虫又称网络蜘蛛和网络机器人,它是一个程序以根据特  
定的规则和给定的 URL 自动收集互联网数据和信息。文章讨论了网络爬虫实现过程中的主要问题何使用 python  
模拟登录何使用正则表达式匹配字符串获取信息何使用 mysql 存储数据等利用 python 实现了一个网络爬  
虫程序系统。  
关键词:网络爬虫;PythonMySQL;正则表达式  
中图分类号TP311.11  
文献标志码A  
文章编号1006-8228(2019)08-94-03  
Discussion on Web data grabbing and analyzing with Python crawler technology  
Wu Yongcong  
Nanhai District Health Vocational Technical School, Foshan, Guangdong 528211, China)  
AbstractIn recent years, with the development of the Internet, how to effectively obtain the required information from the  
Internet has become a new direction that many Internet companies are competing to research, and the most common means of  
obtaining data from the Internet is the web crawler. Web crawlers are also known as web spiders or web robots, it is a program  
that automatically collects Internet data and information according to a given URL and a specific rule. In this paper, the main  
issues in the implementation of web crawlers are discussed, such as how to use Python to simulate login, how to use regular  
expressions to match strings to get information and how to use MySQL to store data, and so on. At the end, a Python-based web  
crawler program system is realized through the research of Python language.  
Key wordsweb crawlerPythonMySQLregular expression  
比其他高级编程语言更简单易阅读和理解。因  
0 引言  
使PythonWeb虫是一个很好的选择。  
在网络信息和数据爆炸性增长的时代管互联  
网信息技术的飞速发展如此庞大的信息数据中仍  
然很难找到真正有用的信息。于是虎  
等搜索引擎应运而生。搜索引擎可以根据用户输入  
的关键字Internet检索网页为用户查找与关键  
字相关或包含关键字的信息。网络爬虫作为搜索引  
擎的重要组成部分信息检索过程中发挥着重要的  
作用。因此络爬虫的研究于搜索引擎的发展  
具有十分重要的意义。对于编写网络爬虫python 有  
其独特的优势。例如python有许多爬虫框架使  
得 web 爬虫更高效地对数据进行爬行。同时Python  
是一种面向对象的解释性高级编程语言。它的语法  
1 网络爬虫的概述  
1.1 网络爬虫的原理  
网络爬虫称网络蜘蛛和网络机器人要用  
于收集互联网上的各种资源。它是搜索引擎的重要  
组成部分一个可以自动提取互联网上特定页面  
内容的程序。通用搜索引Web虫工作流[1]将种  
URL入等待抓URL将等URL等待  
URL列中取出行读URLDNS页下载  
等操作将下载的网页放入下载的网页库将下  
载的网页 URL 放入已爬 URL 队列分析已爬 URL  
收稿日期2019-03-29  
作者简介吴永1988-广东高州人职计算机教师要研究方向算机程序设计。  
计算机时代 2019 年 第 8期  
·95·  
队列中的 URL 提取新的 URL 被放置在要等待抓取  
URL列中进入下一个爬网周期。  
数据存储到数据库一些数据保存到数据库储到本  
地 txt 文件时能够把相册动态中的图片下载到本  
把相册信息也记录下来每一页的操作完成  
后可以进行翻页和选页续操作。因此该系统应该  
满足以下要求。  
爬虫的工作流程通过 URL 抓取页面代码②  
通过正则匹配获取页面有用数据或者页面上有用的  
URL处理获取到的数据或者通过获取到的新的  
URL入下一轮抓取循环。  
(1) 能够通过验证码的验证模拟登录豆瓣网。即  
不需要通过浏览器登录过在控制台输入用户名、  
密码和验证码实现登录豆瓣网。  
1.2 网络爬虫的分类  
网络爬虫大体上可以分为通用网络爬虫焦网  
络爬虫[2]。  
(2) 登录成功后能够爬取豆瓣网首页页面代码。  
即通过登录成功后cookie够访问游客权限不能访  
问的页面并把页面代码抓取下来。  
通用网络爬虫叫全网爬虫从一个或者多  
个初始 URL 开始取初始页面的代码时从该页  
面提取相关URL入队列中到满足程序的停止  
条件为止。相比于通用网络爬虫焦网络爬虫的工  
作流程比较复杂需要事先通过一定的网页分析算  
法过滤掉一些与主题无关URL保留下来URL  
在一定程度上都与主题相关它们放入等待抓取的  
URL列。然后再根据搜索策略队列中选择出下  
一步要抓取的 URL复上述操作到满足程序的  
停止条件为止。聚焦网络爬虫能够爬取到与主题相  
关度更高的信息了快速地获取微博中的数  
以利用聚焦爬虫技术开发出一个用来抓取微博  
数据的工具[3-5]。在如今大数据时代焦爬虫能做到  
大海里捞针网络数据海洋中找出人们需要的信  
且过滤掉那垃圾数据广告信息等一些与  
检索主题无关的数。  
(3) 能够在页面代码中提取出需要的信息。即需  
要通过正则表达式匹配等方法抓取到的页面上获  
取到有用的数据信息。  
(4) 能够实现翻页和选页的功能。即在访问网站  
动态页面时够通过在控制台中输入特定的内容进  
行翻页或输入页码进行选页后抓取其它的页面。  
(5) 实现关键字查询的功能查到的数据爬取  
下来并存储到数据库表中。即在抓取到的页面上获  
取数据时够通过在控制台输入关键字来爬取所  
需的信息。  
(6) 对爬取到的图URL够下载到本地并把图  
片的详细信息存储到本地 txt[12]。即不仅要把图片下  
载到本地要把图片的主题信息片的所属用户,  
图片的具URL信息存储txt件。  
(7) 对日记和其他的动态信息存储到本地不同的  
文件中。即对抓取到的不同的数据信息进行不同的  
存储方式和存储路径。  
2 Python  
Python作者是一个荷兰Guido von Rossum,  
1982 年Guido 从阿姆斯特丹大学获得了数学和计算  
机硕士学位[6]。相比于现在他的那个年代里人  
电脑的主频RAM很低导致电脑的配置很低。  
为了让程序能够在个人电脑上运行有的编译器的  
核心都是做优化为如果不优化个大一点的数  
组就能占满内存。Guido 希望编写出一种新的语言,  
这种语言应该具有功能全面单易学单易用并  
且能够扩展等特点。1989 年Guido 开始编写 Python  
语言的编译器。  
(8) 在登录成功的情况下能够进入个人中心中把  
当前用户关注的用户的信息存储到数据库表中。这  
些信息可能包括用户的 id页 url性签名  
等等。  
以上就是本课程爬虫系统的一些基本需求据  
这些需求就可以明确系统的功能。由于本系统注重  
网络信息资源的爬取以在用户交互方面可能不太  
美观该系统中并没有编写界面有的操作都在  
Eclipse控制台中进行。例如控制台中输入用户  
码和验证码进行登录录成功后的页面选择,  
页面选择后的数据爬取等。  
3 系统分析  
本系统是基Python网络爬虫系统于登录  
并爬取豆瓣网的一些相册论等动态的  
数据信息。并且能够把通过关键字查询的动态信息  
但是统运行后爬取的数据可以在存储数据的  
txt件中或者在数据库中查看。所以系统是  
否真的能够爬取到数据的测试就可以通过观察本地  

全部评论(0)

暂无评论