您现在的位置是：首页 > 技术资料 > 基于Linux的python多线程爬虫程序设计

推荐星级：

基于Linux的python多线程爬虫程序设计

更新时间：2019-12-29 20:48:44 大小：1M 上传用户：songhuahua 查看TA发布的资源 标签：linux python 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。

部分文件列表

文件名	大小
基于Linux的python多线程爬虫程序设计.pdf	1M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

总第

期

３０７

计算机与数字工程

Ｖｏｌ．４３Ｎｏ．５

８６１

ꢀ

Ｃｏｍｕｔｅｒ＆ＤｉｉｔａｌＥｎｉｎｅｅｒｉｎ

ꢀ ꢀ ｇ

ｐｇｇ

年第

期

５

２０１５

＊

基于

的

多线程爬虫程序设计

Ｌｉｎｕｘ

ｔｈｏｎ

ｐｙ

李俊丽

（

）

晋中学院信息技术与工程学院晋中

ꢀ

０３０６１９

ꢀ

，。

微博作为国内最受欢迎的社交平台海量的微博数据必然包含丰富的知识资源如何获取这些非结构化的数

ꢀ

摘

要

ꢀ

，。，

据是进行微博数据挖掘的基础根据微博网页的特点提出了一种基于

，

多线程爬虫程序设计方法通过

ｔｈｏｎ

ｐｙ

的

Ｌｉｎｕｘ

，，，

模拟登录新浪微博自动获取网页内容再从网页内容中抽取微博和用户数据以结构化的

数据格式存储或存入

ＣＳＶ

，。

数据库从而获取微博海量数据和用户信息通过和基于开放

，，

的爬虫程序进行比较结果表明从较长时间考

ＡＰＩ

ＭＳＱＬ

ｙ

，

虑基于

。

多线程爬虫程序拥有更加优异的性能

ｔｈｏｎ

ｐｙ

的

Ｌｉｎｕｘ

；；

关键词微博网页网络爬虫模拟登录

ꢀ

：

ＤＯＩ１０．３９６９．ｉｓｓｎ１６７２９７２２．２０１５．０５．０２６

－

／

中图分类号

ＴＰ３０１

ꢀ

ꢀꢀ

ｊ

ＰｔｈｏｎＭｕｌｔｉｔｈｒｅａｄｉｎＷｅｂＣｒａｗｌｅｒＰｒｏｒａｍＢａｓｅｄｏｎＬｉｎｕｘ

ꢀ ꢀ

ｇ

ꢀ

ꢀ ꢀ

ｙ

ｇ

ＬＩＪｕｎｌｉ

ꢀ

（

，，

ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏａｎｄＥｎｉｎｅｅｒｉｎＪｉｎｚｈｏｎＣｏｌｌｅｅＪｉｎｚｈｏｎ０３０６１９

ꢀ ｇ

）

ꢀ ꢀ

ꢀ

ｇｙ

ꢀ

ｇ

ꢀ

ｇ

ｇꢀ

ＡｂｓｔｒａｃｔＭｉｃｒｏｂｌｏｉｓｏｎｅｏｆｔｈｅｃｏｕｎｔｒｓｍｏｓｔｏｕｌａｒｓｏｃｉａｌｎｅｔｗｏｒｋｉｎｌａｔｆｏｒｍ．Ｖａｓｔａｍｏｕｎｔｓｏｆｍｉｃｒｏｂｌｏｄａｔａ

ｇ ꢀ ꢀ ꢀ ｙ ꢀ ꢀｐｐｇｐ

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ

ｇ

ꢀ

，

ｍｕｓｔｃｏｎｔａｉｎｒｉｃｈｉｎｔｅｌｌｅｃｔｕａｌｒｅｓｏｕｒｃｅｓ．Ｈｏｗｔｏｅｔｔｈｅｓｅｕｎｓｔｒｕｃｔｕｒｅｄｄａｔａｉｔｉｓｔｈｅｂａｓｉｓｏｆｍｉｃｒｏｂｌｏｄａｔａｍｉｎｉｎ．Ａｃ

ꢀ ꢀｇ ꢀ ꢀ ꢀ ꢀ ꢀ －

ꢀ

ｇ

ꢀ

ｇ

，

ｃｏｒｄｉｎｔｏｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｔｈｅｍｉｃｒｏｂｌｏｉｎｓｉｔｅｔｈｉｓａｅｒｒｏｏｓｅｓａｔｈｏｎｍｕｌｔｉｔｈｒｅａｄｉｎｃｒａｗｌｅｒｓｍｅｔｈｏｄｂａｓｅｄ

ｇｇｇ

ꢀ ꢀ ꢀｐｐ ꢀｐｐ ꢀꢀｐｙ

ｇ

ꢀ

ｇ

ꢀ

，

ｏｎＬｉｎｕｘｂｓｉｍｕｌａｔｉｎｔｈｅｌｏｉｎｏｆｍｉｃｒｏｂｌｏｏｂｔａｉｎｉｎｗｅｂｃｏｎｔｅｎｔａｕｔｏｍａｔｉｃａｌｌａｎｄｔｈｅｎｅｘｔｒａｃｔｉｎｍｉｃｒｏｂｌｏａｎｄｕｓｅｒ

ꢀ ｇ ꢀ ꢀ

ｙ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

ｇ

ꢀ

ｇ

ꢀ

ｇ

ꢀ

ｄａｔａｆｒｏｍｔｈｅｗｅｂａｅｃｏｎｔｅｎｔ．ＴｈｕｓＣＳＶｄａｔａｉｎａｓｔｒｕｃｔｕｒｅｄｆｏｒｍａｔｉｓｓｔｏｒｅｄｏｒｄｅｏｓｉｔｅｄｉｎｔｈｅＭＳＱＬｄａｔａｂａｓｅａｎｄ

ꢀ ꢀｐｇꢀ ꢀ ꢀ ꢀ ꢀꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ｐ ꢀ ꢀ ꢀ ｙ ꢀ

ꢀ

，

ｔｈｅｎｈｕｅａｍｏｕｎｔｓｏｆｍｉｃｒｏｂｌｏｄａｔａａｎｄｕｓｅｒｉｎｆｏｒｍａｔｉｏｎｉｓａｃｕｉｒｅｄ．ＴｈｒｏｕｈｃｏｍａｒｉｎｗｉｔｈｃｒａｗｌｅｒｓｂａｓｅｄｏｎｏｅｎＡＰＩ

ｇꢀ

ꢀ ｇꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀꢀ ｑ ꢀ ꢀ ꢀ ꢀｐ

ｇ

ꢀ

ｐ

ｇ

ꢀ

，

ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｆｒｏｍａｌｏｎｔｉｍｅｃｏｎｓｉｄｅｒａｔｉｏｎ

ꢀ ꢀ ꢀ ꢀ ꢀꢀ ꢀ

ｔｈｏｎｍｕｌｔｉｔｈｒｅａｄｉｎｃｒａｗｌｅｒｓｂａｓｅｄｏｎＬｉｎｕｘｈａｖｅｍｏｒｅｅｘｃｅｌｌｅｎｔ

ｇ

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ

ꢀ

ｇ

ꢀ

ｐｙ

ｅｒｆｏｒｍａｎｃｅ．

ｐ

，

ＫｅＷｏｒｄｓｍｉｃｒｏｂｌｏａｅｗｅｂｃｒａｗｌｅｒｓｉｍｕｌａｔｉｎｌｏｉｎ

ｇｐｇ

ꢀ

ｇｇ

ꢀ

ｙ

ꢀ

ＣｌａｓｓＮｕｍｂｅｒＴＰ３０１

ꢀ ꢀ

引言

１

ꢀ

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

基于Linux的python多线程爬虫程序设计

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页