您现在的位置是：首页 > 技术资料 > 基于Python爬虫技术的网页数据抓取与分析研究

推荐星级：

基于Python爬虫技术的网页数据抓取与分析研究

更新时间：2019-12-25 14:17:09 大小：3M 上传用户：songhuahua 查看TA发布的资源 标签：python 爬虫技术网页数据抓取 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

基于Python爬虫技术简单易用的特点,利用python语言编写爬虫程序对国家广播电视总局电视剧电子政务平台的电视剧备案数据进行了爬取。并对爬取的电视剧备案数据进行了统计分析,得出相关结论。

部分文件列表

文件名	大小
基于Python爬虫技术的网页数据抓取与分析研究.pdf	3M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

数字技术

与应用

应用研究

基于 Python 爬虫

技术的网页数据抓取与分析研究

熊畅

(三峡财务有限责任公司,北京 100038)

摘要:基于Python爬虫技术简单易用的特点,利用python语言编写爬虫程序对国家广播电视总局电视剧电子政务平台的电视剧备案数

据进行了爬取。并对爬取的电视剧备案数据进行了统计分析,得出相关结论。

关键词:Python；爬虫；数据分析

中图分类号:TP311.11

文献标识码:A

文章编号:1007-9416(2017)09-0035-02

1 爬虫技术简介

2.1 网页说明

目标数据是历年来的全国电视剧拍摄备案数据。数据源于国家

广播电视总局电视剧电子政务平台的公开信息,如图1所示,具体网

址URL:

applications.shanty?appName=note”。

网络爬虫,是一种通过既定规则,自动地抓取网页信息的计算

机程序。爬虫的目地在于将目标网页数据下载至本地,以便进行后

续的数据分析。爬虫技术的兴起源于海量网络数据的可用性,通过

爬虫技术,我们能够较为容易的获取网络数据,并通过对数据的分

析,得出有价值的结论。

我们需要爬取历年来每个月的备案公示信息列表数据,如图2,

并进行汇总和分析。

Python语言简单易用,现成的爬虫框架和工具包降低了使用门

槛,具体使用时配合正则表达式的运用,使得数据抓取工作变得生

动有趣。

2.2 爬虫程序设计并实现

首先,我们用BeautifulSoup解析器来解析URL的文本信息,分

析网页HTML文本和页面规则后,制定以下步骤来抓取目标数据。

①抓取首页码和尾页码后,循环抓取列表页信息;

②通过”th”标签来提取表头信息;

2 案例分析

图1 目标网页信息

图2 表格数据信息

图3 爬取结果(表头)

图4 爬取结果(表尾)

收稿日期:2017-09-05

作者简介:熊畅(1983 —),男,汉族,湖北黄冈人,硕士研究生,经济师,研究方向:数理金融。

数字技术

与应用

应用研究

图5 年度数据

图7 题材分布

可以看出,2010年至2016年,我国电视剧备案数量整体上看呈上升趋

势,如图5,从2010年的962部上升至2016年的1217部。

2.3.2 统计各地区的备案情况

同样的,用groupby方法统计各地区的备案数量。如图6所示,

2009年3月份至2017年7月份,北京、浙江和上海这三个地区的电视备

案数量排名前三,具体数量分别为2329部、1214部和938部。而排名倒

数前三的地区分别是青海、西藏和甘肃,具体数量分别为4部、13部

和16部。

2.3.3 统计题材分布

如图7所示,从题材上来看,备案数量排名前三的题材分别是当

代都市、近代革命和近代传奇,这三个题材的备案数量分别为3396

部、1130部和709部。

3 结语

运用Python爬虫技术能够顺利的抓取所需数据。通过对数据的

整理和分析,可以认为:从总量上来看,我国电视部备案数量整体呈

稳步上升趋势;从地区分布上看,备案数量与地区经济的发达程度

正相关,由于电视剧的拍摄和制作需要资本投入,发达地区拥有资

本和人才优势,能够大批量的拍摄和制作电视剧;最后,从备案题材

来看,当代都市题材的数量处于绝对领先地位,说明反映时代特征

的当代题材剧最受资本和制作方的亲睐。

图6 地区分布

③循环提取行信息;

④将每一行的信息加入年份和月份属性,将所提取的信息组合

成DataFrame格式。

用Python编程实现上述步骤,最终的结果是抓取并形成了一个

8884行、6列的二维表,包含了从2009年3月份至2017年7月份的电视

剧拍摄备案数据,如图3和图4所示。

参考文献

2.3 数据分析

根据上述数据,我们可以运用Python的统计方法,对数据进行

简单的统计和分析。

[1]Yves Hilpisch.Python金融大数据分析[M].北京:人民邮电出版社,

2015.

2.3.1 统计每年的拍摄数量

用groupby方法统计每年的电视剧数量并作条形图。从数据上

[2]吴剑兰.基于Python 的新浪微博爬虫研究[J].无线互联科技,

2015,(6):93-94.

Crawling and Analysis of Web Data Based on Python Crawler Technology

Xiong Chang

(Three Gorges Finance Limited Liability Company, Beijing 100038)

Abstract:Python crawler technology is simple and easy to use. Using Python language to write program to crawling the drama data on the

SARFT’s website. And we made a statistical analysis of the recorded data and draw the relevant conclusions.

Key Words:Python；Crawler；Data Analysis

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic下载打赏310.00元 3天前

用户：jh0355
21ic下载打赏310.00元 3天前

用户：zhengdai
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏230.00元 3天前

用户：小猫做电路
21ic下载打赏210.00元 3天前

用户：w178191520
21ic下载打赏60.00元 3天前

用户：jh03551
21ic下载打赏90.00元 3天前

用户：铁蛋锅
21ic下载打赏80.00元 3天前

用户：xzxbybd
21ic下载打赏60.00元 3天前

用户：kk1957135547
21ic下载打赏60.00元 3天前

用户：w1966891335
21ic下载打赏60.00元 3天前

用户：w993263495
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liao6
21ic下载打赏70.00元 3天前

用户：liqiang9090
21ic下载打赏70.00元 3天前

用户：mulanhk
21ic下载打赏20.00元 3天前

用户：x15580286248
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏5.00元 3天前

用户：hnygpx
21ic下载打赏10.00元 3天前

用户：vikey_zhu
21ic下载打赏5.00元 3天前

用户：fine0406

21ic小能手打赏15.00元 3天前

资料：Timer Z 智能定时器（Timer Z Intelligent Timer）项目
21ic小能手打赏15.00元 3天前

资料：微型便携式无线心电图仪（Miniature Portable Wireless ECG）项目
21ic小能手打赏10.00元 3天前

资料：多功能函数信号发生器（Multi-Function Frequency Generator）项目
21ic小能手打赏10.00元 3天前

资料：电子DIY愚人节趣味互动项目（April Fools Day Project）项目
21ic小能手打赏10.00元 3天前

资料：基于 ESP32 的多传感器环境监测节点项目
21ic小能手打赏10.00元 3天前

资料：SimpleFOC_X 开源无刷电机 FOC 控制板项目
21ic小能手打赏10.00元 3天前

资料：通用多功能充电器（Universal Multi-Function Charger）项目
21ic小能手打赏10.00元 3天前

资料：LogicPi 双通道数字示波器
21ic小能手打赏10.00元 3天前

资料：说子时钟（语音播报时钟 Shuo-Zi Clock）项目
21ic小能手打赏10.00元 3天前

资料：ESP32-S3 多功能扩展坞（ESP32-S3 Dock）项目
21ic小能手打赏10.00元 3天前

资料：EMG 模块方案测试板（肌电信号采集测试板）项目
21ic小能手打赏10.00元 3天前

资料：RX5808 5.8GHz FPV 分路接收机项目
21ic小能手打赏10.00元 3天前

资料：全波段网络二合一收音机（Full-Band Network 2-in-1 Radio）项目
21ic小能手打赏10.00元 3天前

资料：甲醛检测仪（Jia Quan Jian Ce Yi）项目
21ic小能手打赏10.00元 3天前

资料：Raspberry Pi Zero W 多功能扩展坞（Dock）项目
21ic小能手打赏10.00元 3天前

资料：手持泵浦源激光设备（30W MAX）项目
21ic小能手打赏5.00元 3天前

资料：背包小智钥匙扣（智能语音助手）项目
21ic小能手打赏5.00元 3天前

资料：YQ-PCSMini 微型高精度电流表项目
21ic小能手打赏5.00元 3天前

资料：RV1106G AI 视觉开发板项目

基于Python爬虫技术的网页数据抓取与分析研究

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页