推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的淘宝商品价格爬虫程序设计与实现

更新时间:2019-12-24 06:09:35 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

网上商品种类繁多,价格也各异,如何在海量信息中自动、快速获取某种商品的价格成为一个急需解决的问题。本文以Python语言为基础,使用Requests库和re模块进行程序设计,通过商品关键词对商品的信息及价格进行快速爬取,以淘宝商品价格为例,实现了商品价格的快速获取。


部分文件列表

文件名 大小
基于Python的淘宝商品价格爬虫程序设计与实现.pdf 2M

部分页面预览

(完整内容请下载后查看)
                                         
2019年第38期(总第657期)  
                                                          
科学咨询/科技管理  
科技视野  
基于Python的淘宝商品价格爬虫程序设计与实现  
蔡振海  
(江苏经贸职业技术学院 江苏南京 211100)  
通过正则表达式对名称和价格进行匹配ꢁ  
s_price  =  re.findall(r'\"view_price\"\:\"[\  
d\.]*\"'ꢀhtml)  
摘 要:网上商品种类繁多,价格也各异,如何在海量  
信息中自动、快速获取某种商品的价格成为一个急需解决的  
问题。本文以Python语言为基础,使用Requests库和re模块进  
行程序设计,通过商品关键词对商品的信息及价格进行快速爬  
取,以淘宝商品价格为例,实现了商品价格的快速获取。  
关键词:Python;爬虫;商品价格  
s_titletlt = re.findall(r'\"raw_title\"\:\".*?\"'ꢀhtml)  
采用for循环的方式保存商品名称和价格。  
(四)打印商品名称和价格  
网络爬虫是一种能自动地从海量的web资源中抓取网页内  
容的程序[1]。现如今,网络信息的数据量非常大,手动收集信  
息的方式已经不适用了。快速、自动地获取信息是目前信息获  
取的趋势。爬虫的特点正符合这一要求。它能在互联网资源中  
通过网址一个网页、一个网页地爬取[2]  
先打印表头ꢁ  
g_title = "{:4}\t{:8}\t{:16}"  
print(g_title.format("序号"ꢀ"价格"ꢀ"商品名称"))  
采用for循环进行结果的输出。  
(五)构造主函数  
使用input函数提示输入商品名称,然后构造商品的网址  
一、商品价格爬虫程序设计  
URLꢁ  
(一)编程环境  
  使  L i n u x                 
Python3.X,集成开发环境为当下流行的Pycharm。  
(二)技术原理  
'https://s.taobao.com/search?q=' + goods  
调用定义的函数进行爬取。  
三、爬取结果  
利用Python的Requests库向目标网页发送Request。  
Requests库能自动爬取HTML页面并自动网络请求提交[3]  
Requests库的get方法能构造一个向服务器请求资源的Request  
对象,并返回一个包含服务器资源的Response对象。  
通过右键淘宝商品网页源代码发现,所有商品的商品名  
称存放在键为raw_title的字典中,而商品的价格存放在view_  
price中。re模块是Python的一个标准库,能动态地、模糊地匹  
配字符串。本文通过正则表达式匹配raw_title和view_price来  
完成商品名称和价格的抓取。  
以Python作为商品关键词进行爬取。为了节省篇幅,截取  
了前16个商品的爬取结果,如下图所示。程序成功地将商品名  
称和价格爬取下来。  
二、商品价格爬虫的具体实现  
(一)导包  
import requests  
import re  
(二)获取淘宝搜索页面的信息  
因为目前反爬虫机制的存在,所以需要加上kv作为  
requests的请求头。我们可以通过键盘的F12获取cookie和user-  
agent。  
图1 爬取结果  
四、结束语  
kv={'cookie':'t=6991df1d005aad3c46b2a44dd823  
4c35;…..  
本文使用Python的Requests库和re模块成功实现了对淘  
宝商品名称和价格的爬取。Python简洁易用、第三方库功能  
强大的特点特别适合爬虫程序的设计。该程序只是简单地实  
现了名称和价格的爬取,进一步的数据分析将会在后期文章  
中展现。  
'user-agent':'Mozilla/5.0  (Windows  
NT  10.0;  Win64;  x64)  AppleWebKit/537.36  
(KHTMLꢀ  like  Gecko)  Chrome/68.0.3440.106  
Safari/537.36'}  
参考文献:  
result = requests.get(urlꢀ headers=kvꢀtimeout=30)  
(三)提取商品的名称和价格  
[1] 周立柱ꢀ林玲.聚焦爬虫技术研究综述[J].计算机应  
用ꢀ2005ꢀ25(9):1965-1969.  
[2] 迟殿委.基于Python的网页图片爬取[J].电脑编程技  
巧与维护ꢀ2019(5).  
基金项目:2018年度江苏省教育信息化研究课题项目(课  
[3] 仇明.基于Python的图片爬虫程序设计[J].工业技术  
与职业教育ꢀ2019(1):1-3.  
题批号ꢁ20180040)。  
·45·  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载