推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的关于Flickr图片网站的爬虫

更新时间:2019-12-21 10:57:20 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python网络爬虫 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

如今的互联网已然进入大数据时代,网络上有数以百计的图片,图片网络爬虫可以通过既定的规则自动地抓取互联网上的图片并下载至本地存储,通过对国内外各大图片网站的调查研究,决定以国外网站Flickr为对象通过Python程序设计语言来实现获取高质量的,准确的,完整的图片和信息.最终成功实现了对Flickr网站上的图片按照检索的字段,批量爬取图片信息并下载图片的程序.


部分文件列表

文件名 大小
基于Python的关于Flickr图片网站的爬虫.pdf 2M

部分页面预览

(完整内容请下载后查看)
企业管理与科技  
Management&TechnologyofSMꢀ  
Python Flickr 爬虫  
The Web Crawler of Flickr Photo Website Based on Python  
1 1 2 1  
王金  
1
1.院 信息工程0652012.050091)  
1
1
2
1
1
WANG Jin-feng , LI Shi-liang , WANG Ming , LUO Xing-yu , ZHANG Xue-yu  
(1.SchoolofInformationEngineering,InstituteofDisasterPrevention,Sanhe065201,China;  
2.HebeiWomen'sVocationalCollege,Shijiazhuang050091,China)  
摘 要】  
互联网入大数据时代上有的图爬虫互联网的  
载至国内研究决定以Flickr Python 言来获  
准确的图和信息了对 Flickr 的图信息的  
。  
Abstract Today'sInternethasenteredtheeraofbigdata. Therearehundredsofpictureson the internet, picture web crawlerscan automatically  
capture pictures on the internet and download them to local storage through established rules.Through the investigation and research of the major  
photo websitesat home and abroad, we decided to take Flickr, which ia a foreign website, as the object of studyto obtain high quality, accurate and  
complete pictures and information through Python programming language. Finally, we successfully realize the program of crawling picture  
informationanddownloadingpictureinbatchesaccordingtothesearchfieldofthepictureonFlickrwebsite.  
关键词】  
PythonFlickr线片  
Keywords PythonwebcrawlerFlickrmultithreadingpicture  
中图分类X87 文献标志A  
文章编1673-1069201901-0182-02  
2.2 Flickr API  
1 引言  
Flickr 上面分  
业的。  
随着到来,大  
(Volume) 数据(Variety) 价值ꢀValue) 理  
[1] [2]  
ꢀVelocity) 的特点 对人可  
3 爬虫系统工作  
[3]  
根据的实, 的要。  
系统部分部分Flickr API 等  
数据第二部分根据数据库中的Url 片  
信息1 ,2 。  
3.1 API 信息  
按照进行,并信息存入  
数据库提供了一个通过 Python Flickr API 实现  
通过信息的程。  
Flickr 标识的 ID如果  
信息首先是要Flickr ID,  
通过调Flickr 方法不同信息Flickr  
2 相关技术  
2.1 Python  
Python 种计种动向  
Python 大优势就,  
[4]  
API 多方法可以调不同数据 是  
使用前提要有 Flickr API 如下:  
Flickr=flickrapi.FlickrAPI ꢀAPI_KEY,API_SECRET,cache=  
True)  
[5]  
并具有丰富编写提供了极便  
[6]  
使得数据动有,从而。  
体系研究及经借鉴,  
主要通过来进行tags text  
是对extras 不同大小  
Url如下:  
编号JY2018B22。  
者简(1987- )邯郸从事大数据深  
研究。  
photos  
= flickr.photos.search (extras ='url_c',per_page =5, text =keyword,  
1997-从事 Python 爬虫设  
tag_mode='all',content_type=7,tags=keyword, sort='relevance')  
研究。  
通过 photos.search 方法就可以Json 列  
182  
术应  
ApplicationndPraꢁtiꢁeof NewTeꢁhnoꢂogy  
ꢁxꢈꢁpt:  
Rꢁalnam = "Nonꢁ"  
 
始  
 
URL 表  
3.2 载  
列  
数据  
根据url rꢁquꢁst 库  
根据  
创建  
urlid,  
ꢏwnꢁrtitlꢁ 信息  
来进行按照,  
包含如下:  
dꢁf ꢐownloadPiꢈ(PꢀotoUrl,namꢁ,Guidꢊ:  
mkpatꢀ ꢑ "E:\\ꢒliꢈkrPiꢈturꢁs\\"+str(namꢁꢊ  
isExists ꢑ ꢏsꢋpatꢀꢋꢁxists(mkpatꢀꢊ  
if nꢏt isExists:  
根据id获  
 
信息  
Rꢁquꢁsts 求  
片  
析过的数量  
200 张  
URL 中  
的最段  
ꢏsꢋmakꢁdirs(mkpatꢀꢊ  
列  
的最段  
r ꢑ rꢁquꢁstsꢋgꢁt(PꢀꢏtꢏUrl,timꢁꢏutꢑꢇꢊ  
patꢀ ꢑ"E:\\ꢒliꢈkrPiꢈturꢁs\\"+str(namꢁꢊ+"\\"+str(Guidꢊ+'ꢋjpg'  
witꢀ ꢏpꢁn(patꢀ,'wb'ꢊ as f:  
束  
束  
2
1
fꢋwritꢁ(rꢋꢈꢏntꢁntꢊ  
个分析通过调photo.get()数  
url Flickr id,  
用多线tꢀrꢁadpꢏꢏl 实  
如下:  
Json :  
pꢏꢏl ꢑ tꢀrꢁadpꢏꢏlꢋTꢀrꢁadPꢏꢏl(10ꢊ  
tasks ꢑ tꢀrꢁadpꢏꢏlꢋmakꢁRꢁquꢁsts(Main, urlꢊ  
ꢎpꢏꢏlꢋputRꢁquꢁst(taskꢊ fꢏr task in tasks]  
pꢏꢏlꢋwait(ꢊ  
{ "pꢀotos": { "pagꢁ": 1, "pagꢁs": 3, "pꢁrpꢂgꢁ": 100, "totꢂl": "9", "pꢀoto": [  
{
"id": "4316ꢃ2ꢄ5ꢄ80", "ownꢁr"ꢅ "11ꢆ7607ꢇꢇ@N07", "sꢁꢈrꢁt"ꢅ "  
6ꢈ40bꢉa80a", "sꢁrvꢁr"ꢅ "1ꢆꢇ1", "farm"ꢅ 2, "titlꢁ"ꢅ "Harztropfꢁn * Rꢁsin drops *  
Gotas dꢁ rꢁsina * Silbꢁr -Akaziꢁ (Aꢈaꢈia dꢁalbataꢊ * ꢋ _DSCꢇ690 -001", "  
ispubliꢈ"ꢅ 1, "isfriꢁnd"ꢅ 0, "isfamily"ꢅ 0 }, "stat"ꢅ "ok" }  
4 结语  
如果数据可以根据到的id  
通过调用其方法ꢌson 数据来进行方  
爬虫通过调ꢒliꢈkr ꢓPI Pytꢀꢏn 丰富三库  
实现ꢒliꢈkr 信息进行的程  
一些准确信息数  
提供了一通过充分Pytꢀꢏn 的特  
结合 ꢒliꢈkr ꢓPI便相  
信息到的片自到本,学  
人工数据。  
如下:  
pꢀotos = fliꢈkrꢋpꢀotosꢋgꢁtExifꢍpꢀoto_id = PiꢈIdꢊ  
Dꢁtails = fliꢈkrꢋpꢀotosꢋgꢁtInfo(pꢀoto_id = PiꢈIdꢊ  
data = jsonꢋloads(Dꢁtailsꢊ  
data1 = jsonꢋloads(pꢀotosꢊ  
try:  
Piꢈꢌson = dataꢎ'pꢀoto']  
ꢁxꢈꢁpt:  
参考】  
1夏火松,Pytꢀꢏn 的动爬虫算法ꢎꢌ]ꢋ工  
,2016,19(02ꢊ:43-46ꢋ  
2Pytꢀꢏn 型网络爬虫计及实现ꢎꢌ]ꢋ识与  
,201ꢉ,13(12ꢊ: 4ꢉ-49ꢋ  
3Pytꢀꢏn 互联网中的ꢎꢌ]ꢋ技  
, 2014 (21ꢊ :ꢇ6-ꢇꢔ+ꢉ4ꢋ  
4,Pytꢀꢏn 系统计与实现ꢎꢌ]ꢋ印  
, 2010,1ꢔ(02ꢊ:4ꢔ-ꢇ1ꢋ  
5Pytꢀꢏn 爬虫ꢎꢌ]ꢋ工程,  
201ꢔ(1ꢉꢊ:241-242+244ꢋ  
6Pytꢀꢏn 爬虫数据与分析ꢎꢌ]ꢋ技  
应用201ꢉ(09ꢊ:3ꢇ-36ꢋ  
Piꢈꢌsꢏn = "Nonꢁ"  
PiꢈꢌsonDa = str(Piꢈꢌsonꢊ  
PiꢈꢌsonData = filtꢁr_ꢁmoji(PiꢈꢌsonDaꢊ  
try:  
Loꢈatio = dataꢎ'pꢀoto']ꢎ'ownꢁr']ꢎ'loꢈation']  
ꢁxꢈꢁpt:  
Loꢈatio = "Nonꢁ"  
Loꢈation = Loꢈatioꢋrꢁplaꢈꢁ("'",""ꢊ  
if Loꢈation =="":  
Loꢈation = "Nonꢁ"  
try:  
Rꢁalnam = dataꢎ'pꢀoto']ꢎ'ownꢁr']ꢎ'rꢁalnamꢁ']  
183  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载