推荐星级:
- 1
- 2
- 3
- 4
- 5
基于python的微信公众号关注者数据分析
资料介绍
在数据无处不在的时代,对数据进行有效对分析显得十分重要。利用python语言从一个微信公众号内获取到所有关注者的信息,通过数据筛选,将关注者的性别、年龄、名称、居住地等信息保存到json文件中,并对这些数据进行可视化的处理与分析,最终将关注者信息通过可视化的方式呈现出来。实验结果表明,基于python的可视化数据分析的实现,为大数据分析与数据时代信息价值的挖掘提供了高效、准确、丰富的资源,可以更好的满足数据分析的要求。
部分文件列表
文件名 | 大小 |
基于python的微信公众号关注者数据分析.pdf | 1M |
部分页面预览
(完整内容请下载后查看)第 27 卷第 5 期
电 脑 与 信 息 技 术
Vol.27 No.5
Oct. 2019
2019 年 10 月
Computer and Information Technology
文章编号: ( )
1005-1228 2019 05-0061-03
基于 python 的微信公众号关注者数据分析
许 素,许新华,柏 瑶,张 盼,黄 瑾
(湖北师范大学 计算机与信息工程学院,湖北 黄石 435002)
摘
要:在数据无处不在的时代,对数据进行有效对分析显得十分重要。利用 python 语言从一个微信公众号内获取到所
有关注者的信息,通过数据筛选,将关注者的性别、年龄、名称、居住地等信息保存到 json 文件中,并对这些数据进行可视
化的处理与分析,最终将关注者信息通过可视化的方式呈现出来。实验结果表明,基于 python 的可视化数据分析的实现,
为大数据分析与数据时代信息价值的挖掘提供了高效、准确、丰富的资源,可以更好的满足数据分析的要求。
关键词:python;网络爬虫;大数据分析;数据可视化
中图分类号:
TP319
文献标识码:
A
Python- Based Data Analysis of Public Followers in Micro- Communications
XU Su, XU Xin-huaꢀ BAI Yaoꢀ ZHANG Panꢀ HUANG Jin
(College of Computer and Information Engineering, Hubei Normal Universityꢀ Huangshi 435002ꢀ China)
Abstract:In the era of big data, it is very important to analyze data effectively. All followers’information is obtained from
a public number of We Chat by Python language. the information of gender, age, name and residence of followers is saved
in json file through data filtering. Also, these data are processed and analyzed visually. Eventually, the followers' information
is visually presented. The experimental results illustrate that the implementation of python- based visual data analysis
provides efficient, accurate and abundant resources for large data analysis and information value mining in the data age,
which can better satisfied the requirements of data analysis.
Key words: python; web crawler; large data analysis; data visualization
[3]
详细研究和概括总结的过程 。在数据大量产生,并且
语言是一种开源的编程语言,属于使用弱
Python
类型的脚本语言,它具有更加简洁的代码,不仅支持
面向过程的程序设计方法 也支持面向对象的程序设
远超过人力处理的范围的大数据时代,
python
通过一
些标准库有效的解决了庞大的数据处理的问题。在将
,
[ꢀ]
计方法 。
作为当下最受欢迎的数据分析工具,
这些数据转换成适合 分析的数据结构之后,运
Python
python
用相应的工具进行数据分析、处理、提出数据特征,并
用一定的结构形式表现出来。本文运用 语言进
在大数据分析中据有明显的优势,而
之所以适
python
合做数据分析,得益于它强大而全面的数据分析库。借
python
助
的功能完备的标准库、强大的第三方库
行基于
的微信公众号关注者数据分析主要由
Python
python
数据获取、数据可视化、数据呈现三个步骤构成。
1.1 数据获取
可以实现快速实现数据的获取处理,借助
requests
图形库,可以以图形化的方式直观地呈现分
matplotlib
[ꢁ]
析结果 。
Python
语言在数据分析领域所展现出的优势
数据获取是数据分析里面的第一步,是数据分析
的基础。数据获取是指将我们需要的一些数据从网页
中亦或是数据库里面提取、收集出来并对其进行数据
处理,使其按照我们需求呈现出来,随后利用程序代码
对其进行分析处理。本文中数据获取有以下两个步骤:
为程序员所推崇。
1
基于 Python 语言的数据分析
数据分析是指用适当的分析方法对收集来的大量
数据进行分析 提取有用信息和形成结论,对数据加以
,
( )登陆公众号获取接口
ꢀ
收稿日期:2019- 04- 16
基金项目:2018 湖北师范大学年本科生科研项目(项目编号:2018012),2018 年度湖北省高校省级教学改革研究项目“地方高校项目工作室制创新创
业人才培养模式研究”。
作者简介:许素(1999-),女,湖南新化人,在读本科生,AndiOS 工作室成员,主要研究方向为 Android 开发;(通讯作者)许新华(1968-),男,湖北孝感
人,教授,硕士生导师,主要研究方向为软件工程、大数据和区块链。
·62·
电
脑
与
信
息
技
术
2019 年 10 月
def get_pie(item_name, item_name_list, item_num_list):
每个公众号都有相应的功能接口,比如说语音识
别接口、获取用户地理位置信息接口、获取用户基本信
息的接口、用户分组接口等等。通过这些接口,我们可
以实现相应的功能或者获取到所需的信息。在本文中,
数据获取前需要登录微信公众平台,获取相关的接口,
并对获取出来的接口进行处理,简而言之就是获取接
口中有需要的那一部分,用于后台需要的代码中,通过
totle = item_num_list[0] + item_num_list[1] + item_num_list
[2]
“共有: 个关注者”
subtitle = %d %totle
构造函数实例
#
pie = Pie(item_name, page_title = item_name, title_text_size = 30,
title_pos = \
‘
’
center , subtitle = subtitle, subtitle_text_size = 25, width =
800, height = 800)
添加数据
这些接口实现获取关注者的原始 ,并通过关注者原
ID
始
对关注者的一些基本数据进行抓取。
ID
#
“”
pie. add( , item_name_list, item_num_list, is_label_show = True,
()用户信息获取
2
center=[50,45], \
radius =[0,50],legend_pos = left , legend_orient = vertical ,
label_text_size=20)
文件输出地址与文件名
关于数据获取,本文主要运用网络爬虫技术对目
标数据进行抓取并同时储存以便于后续利用程序语言
对其进行分析可视化处理。 是用 语言
‘
’
‘
’
Requests
python
#
基于
编写的,
requests
库可以实现完善多样的
urllib
‘ ’ ‘
out_file_name = ./analyse/ + item_name + .html
’
操作,帮助开发人员向读取本地文件那样方便地
URI
生成 文件
HTML
#
读取互联网数据。故而本文运用
对网页进行获
request
requests.get ()
方法发出请求到服务器,然后通过
pie. render(out_file_name)
取。导入
包后,可以用
方法模拟
requests
1.3 结果呈现
在本案的数据可视化分析结果中,几个较为主要
的可视化分析图形结果如图 所示。
属
HTTP GET
text
。下面
) [4]
性取得服务器响应返回的网页内容 源代码
(
图
1-
3
是爬取用户信息并储存的部分代码:
def get_info(info):
读取与存取数据代码
item[info]=(dict.get(0)).get(info) //
url2='https://api.weixin.qq.com/cgi-bin/user/get?access_token='\
获取接口
’
+str(access_token)+ &next_openid=' //
获取数据,并保存到
文件
html2=requests.get(url2).text //
dictinfo2=json.loads(html2) //loads
象
json
对象转化为
将
对
python
json
1.2 数据可视化分析
数据可视化是数据分析中重要的一步,旨在借助
于图形化手段,清晰有效地传达与沟通信息。在本文
中,我们对测试号关注者原始 中的微信昵称、用户
ID
性别、所在省份、居住城市进行了数据获取。获取到的
用户信息存储在一个 文件中,数据可视化的目的
图 1 关注者性别比例饼状图
json
就是将
文件中的用户信息进行统计分析并绘制
json
成图形。本文中绘图分析主要工具借助
第三方
python
库:
Matplotlib
,通过调用
库中的
、 、
Pie Bar
Matplotlib
、
Map WordCloud
等函数将
文件中的数据进行绘图
json
分析,最后将分析结果图形以
文件显示。下面
HTML
是绘制关注者性别比例饼状图部分重要代码,其他图
绘制原理相同:
获取
文件中的数据
#
json
In_file_name = ./data/friends.json
with codecs.open(in_file_name, encoding = utf-8 ) as f :
friends = json.load(f)
‘
’
‘
’
绘制关注者性别比例饼状图
#
图 2 关注者地区统计柱状图
全部评论(0)