推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的股票数据爬虫程序设计

更新时间:2019-12-24 13:21:54 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python数据爬虫 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

引 言 Python是一种面向对象、解释型、带有动态语义的高级程序设计语言,其语法简洁清晰,具有丰富和强大的类库.Python语言支持覆盖信息技术各领域的10万个函数库,依靠开源快速开发,形成了全球最大的编程社区.


部分文件列表

文件名 大小
基于Python的股票数据爬虫程序设计.pdf 2M

部分页面预览

(完整内容请下载后查看)
Python  
基于  
的股票数据爬虫程序设计  
彭ꢀ莉  
401120  
(重庆工业职业技术学院,渝北ꢀꢀ  
[ 关键词 ]Python;股票数据;程序设计  
import requests  
引ꢀ言  
from bs4 import BeautifulSoup  
Python  
是一种面向对象、解释型、带有动态语义的高  
import re  
级程序设计语言语法简洁清晰有丰富和强大的类库。  
Python 10  
def getHTMLText url code utf 8  
,ꢀ  
=" - "):  
语言支持覆盖信息技术各领域的  
靠开源快速开发,形成了全球最大的编程社区。  
Python  
万个函数库,依  
try  
ꢀꢀꢀꢀ  
r
requests get url  
ꢀꢀꢀꢀꢀꢀꢀꢀ ꢀ=ꢀ )  
.
基于  
的爬虫与其他语言相比的有很多优势,本  
Python  
r raise for status  
ꢀꢀꢀꢀꢀꢀꢀꢀ .  
_
_
()# 抛出异常  
文主要是对  
的所有新闻这个案例进一步阐释  
爬虫技术进行阐述。通过爬去某个网站  
r encoding code  
ꢀꢀꢀꢀꢀꢀꢀꢀ . ꢀ=ꢀ  
# 设定编码格式  
Python  
爬虫技术的简洁。  
return r text  
ꢀꢀꢀꢀꢀꢀꢀꢀ  
ꢀ .  
一、爬虫的概念  
except  
ꢀꢀꢀꢀ  
FOAF  
网络爬虫(也称为网络蜘蛛、网络机器人,在  
return  
ꢀꢀꢀꢀꢀꢀꢀꢀ  
“”  
社区中,更常被称为网络追逐者)是根据某些规则自动从万  
维网获取信息的程序或脚本,不常用的其他名称包括蚂蚁、  
自动索引、仿真程序或蠕虫。  
def getStockList lst stockURL  
,ꢀ ):  
html getHTMLText stockURL GB2312  
ꢀ=ꢀ ,ꢀ“  
”)  
soup BeautifulSoup html html parser  
ꢀ=ꢀ ,ꢀ' ')  
.
a
soup find all  
a
ꢀ=ꢀ (‘ ’)ꢀ  
.
_
二、爬虫的基本流程  
for i in a  
ꢀ ꢀ ꢀ :  
HTTP  
发起请求:通过  
Request  
库向目标站点发起请求,即发  
try  
headers  
等信息,等待  
送一个  
服务器响应。  
获取响应内容:如果服务器能正常响应,会得到一个  
,请求可以包含额外的  
href i attrs href  
ꢀ=ꢀ . [‘ ’]  
ꢀꢀꢀꢀꢀꢀꢀꢀ  
ꢀꢀꢀꢀꢀꢀ  
except  
lst append re findall  
r
s hz d 6  
href  
0
.
. ( ”[ ][ ]\ { },ꢀ  
[ ])  
Response Response  
的内容便是所要获取的页面内容,类型  
字符串、二进制数据(如图片视频)  
continue  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
HTML Json  
可能有  
等类型。  
解析内容:得到的内容可能是  
达式、网页解析库进行解析。可能是  
Json  
def getStockInfo lst stockURL fpath  
,ꢀ  
,ꢀ  
):  
count  
0
ꢀꢀꢀꢀ  
ꢀꢀꢀꢀ  
ꢀ=ꢀ  
HTML  
,可以用正则表  
for stock in lst  
ꢀ ꢀ  
Json  
,可以直接转为  
url stockURL stock  
ꢀꢀꢀꢀꢀꢀꢀꢀ ꢀ=ꢀ ꢀ+ꢀ  
html  
ꢀ+ꢀ.  
对象解析,可能是二进制数据,可以做保存或者进一步  
的处理。  
保存数据:保存形式多样,可以存为文本,也可以保  
存至数据库,或者保存特定格式的文件。  
Request Response  
html getHTMLText url  
ꢀ=ꢀ )  
ꢀꢀꢀꢀꢀꢀꢀꢀ  
ꢀꢀꢀꢀꢀꢀꢀꢀ  
try  
if html  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ ꢀ  
==””:  
continue  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
(一)  
infoDict  
ꢀ=ꢀ{}  
soup BeautifulSoup html html parser  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
Request  
: 浏 览 器 就 发 送 消 息 给 该 网 址 所 在 的 服 务  
ꢀ=ꢀ  
,ꢀ'  
.
')  
HTTPRequest Response  
:服务器收到  
这个过程叫做  
s t o c k I n f o  
s o u p f i n d  
ꢀ = ꢀ  
.
浏览器发送的消息后,能够根据浏览器发送消息的内容,  
做相应处然后把消息回传给浏览这个过程叫作  
div attrs  
(‘ ’,  
class stock bets  
- })  
={‘  
name stockInfo find all attrs  
ꢀ=ꢀ _ ={‘  
class bets name  
- })  
.
HTTPResponse  
Response  
信息后,会  
。浏览器收到服务器的  
0
[ ]  
对信息进行相应处理,然后展示。  
infoDict update  
{‘ 股 票 名 称 :ꢀ  
name text split  
. . ()  
.
0
[ ]})  
(二)抓取数据类型  
keyList stockInfo find all  
dt  
ꢀ=ꢀ (‘ ’)  
.
_
HTML  
Json  
格式文本等。图片:  
网页文本:如  
文档、  
valueList stockInfo find all  
dd  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
ꢀ=ꢀ  
.
_
(‘ ’)  
获取到的是二进制文件,保存为图片格式。视频:同为二进  
for i in range len keyList  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ ꢀ ꢀ ꢀ  
)):  
And so on  
:只要是能请求  
制文件,保存为视频格式即可。  
key keyList i text  
ꢀ=ꢀ [ ].  
到的,都能获取。  
val valueList i text  
ꢀ=ꢀ [ ].  
(三)解析方式  
infoDict key val  
]ꢀ=ꢀ  
[
Json  
直接处理,  
BeautifulSoup  
解析,正则表达式,  
with open fpath  
a
encoding  
utf 8  
as f  
,ꢀ‘ ’,ꢀ  
=- ’)ꢀ ꢀ :  
PyQuery XPath  
库和  
库。  
f write str infoDict  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ . ꢀ+ꢀ'\ 'ꢀ)  
n
(四)保存数据  
count count  
1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
print  
ꢀ=ꢀ ꢀ+ꢀ  
Json Xml  
文 本: 纯 文 本、  
等。 关 系 型 数 据 库: 如  
等具有结构化表结构形式存储。  
r
2f  
format count 100 len  
* /  
(“\ 当前进度 :ꢀ{:. }%.  
MySQL Oracle SQL Server  
lst  
)), =””)  
end  
MongoDB Redis  
Key Value  
- 形式存  
非关系型数据库:如  
储。二进制文件:如图片、视频、音频等等直接保存成特定  
格式即可。  
except  
ꢀꢀꢀꢀꢀꢀꢀꢀ  
count count  
1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
ꢀ=ꢀ ꢀ+ꢀ  
print format count 100  
r
2f  
(“ \ 当前进度 :ꢀ{:. }%. * /  
三、案例:爬取某个网站股票信息  
len lst  
end  
19  
)), =””)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(下转 页)  
活力 2018·12  
11  
于在白酒黄金期一些中小白酒企业盲目乐观,通过举债扩张  
产能抢占市场,结果随着行业深度调整,资金链断裂形成大  
量银行不良贷款,也导致商业银行对中小白酒企业采取了更  
加严格的贷审方法,使中小白酒企业更难获得银行贷款。  
例对中小白酒企业发放贷款。  
(二)拓宽直接融资渠道  
一是探索发行中小白酒企业集合票据。集中若干个中  
小白酒企业,在银行间债券市场以统一产品设计、统一券种  
冠名、统一信用增进、统一发行注册方式,共同发行中小白  
酒企业集合票据。二是探索发行中小企业集合债。通过一个  
牵头人组织,以多个中小白酒企业构成集合作为发行主体,  
使用统一的债券名称,向投资人发行企业债券。三是择优培  
育上市融资。进一步改善中小白酒企业财务状况,规范中小  
白酒企业经营管理,对优质中型以上的白酒企业,扶持通过  
主板市场上市融资,拓宽融资渠道。对于规模较小,但经营  
规范长性好的中小白酒企业可以推荐其通过中小板、  
创业板市场和三板、新三板、产权交易市场、股权交易市场  
等场外交易市场融资。  
(二业政策限制是中小白酒企业项目资金融资难、  
融资贵的重要外因  
70  
有调查显示, % 以上的中小酒企并未感受到  
2016  
3
以来的行业回暖来数年销售 亿元以内的白酒企业,  
3
很有可能被重新洗牌,因此“ 亿元”成为绝大多数中小白  
酒企业的“生死线”。但由于白酒被列入限制类产业目录,  
中小白酒企业获得新生产线的项目贷款难度极大。为解决资  
金难题,中小白酒企业普遍采取短贷长投等项目资金筹集方  
式,使用短期流动资金贷款投向中长期项目投资,不仅抬高  
了中小白酒企业的融资成本,更造成中小白酒企业融资与现  
金流的期限错配,增大企业的资金链断裂风险。  
(三)促进新型股权融资  
一是继续做大川酒集团等四川酒企集团。不断壮大四  
川白酒主产地区酒企集团实力,由集团公司集中将中小白酒  
企业并购整合,以收购股权等方式注入低成本资金,推动加  
入集团公司的中小白酒企业恢复生产、扩大市场销量和降低  
经营成本,促进四川中小酒企的整合发展。二是积极引入风  
险基金和股权基金。吸引风险投资和私募股权投资加大对互  
联网白酒等白酒新业态的直接融资,实现中小白酒企业发展  
的利益共享、风险共担。三是探索建立四川省级白酒产业发  
展投资引导资金,进一步壮大市级白酒产业发展投资引导基  
金,加大政府资金对白酒产业的发展引导力度,推动仍处于  
调整期的中小白酒企业结构调整和转型升级。  
(三)规模小、利润薄、管理粗放、治理机制混乱等  
都导致中小白酒企业很难通过股票、债券市场融资  
虽然近年来直接融资渠道的门槛有所降低,如新三板  
不再要求利润指标等,同时,四川省及省内白酒主要产区地  
方政府都加大对白酒企业通过股权、债权融资的奖补力度,  
但大多数中小白酒企业仍很难达到在沪深主板市场上市和  
发行的条件;在要求高成长性的新三板市场,中小白酒企业  
整体利润水平低,发展空间有限,并不具有较强的吸引投资  
者的能力。同时,受制于信用评级、发债规模、发债成本、  
运营稳定性等制约,单个中小白酒企业也很难通过债券市场  
获得融资。  
基金项目:川酒发展研究中心项目,四川中小白酒企  
三、新产业周期下四川中小白酒企业金融支持的改进  
路径  
CJY17 07  
)。  
业融资状况调查研究(编号:  
自贡市哲学社会科学重点研究基地运动与健康创新研  
YDJKZ18 05  
-
(一)丰富间接融资产品  
究中心项目(编号:  
-
)。  
进一步增加白酒抵(质)押及担保方式,针对中小白  
酒企业的经营特点、生产工艺和融资需求现状,逐步丰富土  
地、厂房、设备、窖池、基酒、库存商品等抵(质)押贷款。  
一是推广基酒质押贷款。鼓励商业银行将中小白酒企业窖藏  
的基酒通过价值评估,办理质押手续,由银行根据质押基酒  
评估价值的一定比例发放贷款。二是开发窖池抵押贷款。探  
索将中小白酒企业的窖池抵押给商业银行,由商业银行按窖  
池价值的一定比例发放贷款。三是扩大白酒无形资产质押贷  
款。支持中小白酒企业将其商标权、专利权经登记手续后质  
押给商业银行,银行根据中介机构的评估价值按一定比例向  
白酒企业发放贷款。四是探索白酒企业应收账款质押贷款。  
由中小白酒企业将其拥有的应收账款作为对商业银行的还  
款保证,在办理应收账款质押登记后,由商业银行按一定比  
2017  
年自贡市软科学研究项目,科技金融结合促进老  
工业城市创新驱动发展的实证研究。  
参考文献:  
1
2013 2014  
M
[ ] 杨柳 . 四川白酒产业发展报告ꢀ  
年度 [ ]. :  
2015  
中国轻工业出版社,  
.
2
SWOT  
J
分析 [ ].  
[ ] 刘世成 . 我国银行系电商平台发展特点及  
2015 11 32 35  
西南金融,  
):  
[ ] 游垒岐 . 泸州市酒业发展及金融支持研究 [ ]. 西南财经  
2010  
-
.
3
D
大学,  
.
4
D
[ ] 黄方 . 中小白酒企业融资问题研究 [ ]. 西南政法大学,  
2015  
. □  
11  
continue  
Python  
言。 的设计非常可读。与其他语言相比,其他语言  
(上接 页)ꢁꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
中经常使用英语关键词和一些标点符号,它比其他语言具有  
更加独特的语法结构。在设计上更加简单有效。使用起来更  
方便。  
def main  
():  
ꢀꢀꢀꢀ  
stock list url  
http quote eastmoney com stocklist  
:// .  
_
_
ꢀ=ꢀ‘  
.
.
/
html  
参考文献:  
stock info url  
https gupiao baidu com stock  
ꢀꢀꢀꢀ  
ꢀꢀꢀꢀ  
ꢀꢀꢀꢀ  
ꢀꢀꢀꢀ  
ꢀꢀꢀꢀ  
_
_
ꢀ=ꢀ‘  
://  
.
.
/
/’  
output file  
D BaiduStockInfo txt  
_
ꢀ=ꢀ:/  
.
1
Python  
J
[ ] 贾棋然 . 基于  
电脑知识与技术,  
专用型网络爬虫的设计及实现 [ ].  
slist  
=[]  
2017 12 47 49  
):  
-
.
getStockList slist stock list url  
,ꢀ  
_
_
2
Python  
[ ] 刘艳平,俞海英,戎沁 .  
模拟登录网站并抓取网页  
2015 31 01 58 60  
getStockInfo slist stock info url output file  
,ꢀ  
_
_
,ꢀ  
_
J
的方法 [ ]. 微型电脑应用,  
):  
-
.
3
Python3  
J
[ ] 涂辉,王峰,商庆伟 .  
编程实现网络爬虫 [ ]. 电  
main  
()  
2017 23  
21 22  
-
脑编程技巧与维护,  
):  
.
的新浪微博数据爬  
结ꢁ 语  
4
Python  
[ ] 周中华,张惠然,谢江 . 基于  
J
2014 34 11  
3131 3134  
- . □  
[ ]. 计算机应用,  
):  
Python  
一般来说,  
是初学者和常见任务的简单脚本语  
活力 2018·12  
19  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载