推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Hadoop和Python的多角度电影数据可视化分析

更新时间:2019-12-25 18:04:49 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:hadooppython 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

本文利用Hadoop大数据平台和Python语言工具,从网页中提取电影相关数据,对票房、导演和影片类型等入手进行分析,经过大数据的采集、存储、抽取、转换和装载(ETL)过程,简要论述清洗过程,着重从多重角度完成电影分析报告,同时进行分析结果的图表绘制。


部分文件列表

文件名 大小
基于Hadoop和Python的多角度电影数据可视化分析.pdf 1M

部分页面预览

(完整内容请下载后查看)
现代信息科技  
Modern Information Technology  
Nov.2017  
Vol.1 No.5  
2017 年 11 月 25 日  
第 1 卷 总 第 5 期  
基于 Hadoop 和 Python 的多角度电影数据可视化分析  
陈豪,吴健  
苏州经贸职业技术学院 江苏 苏州  215009  
    本文利用 Hadoop 大数据平台和 Python 语言工具 从网页中提取电影相关数据 对票房 导演和影片类型等入手  
进行分析 经过大数据的采集 存储 抽取 转换和装载 ETL 过程 简要论述清洗过程 着重从多重角度完成电影分析报告  
同时进行分析结果的图表绘制  
关键词 Hadoop 平台 Python 语言 数据清洗 电影分析报告 数据可视化  
中图分类号 TP311.13  
文献标识码 A  
    
文章编号 2096-4706 2017 05-0011-03  
Analysis of Multi Angle Movie Data Visualization Based on Hadoop and Python  
CHEN HaoWU Jian  
Suzhou Institute of Trade and Commerce Suzhou 215009,China  
In this paper the Hadoop big data platform and Python language toolsextract the relevant data from the web page in the  
Abstract:  
moviethe box officeand the director of the film typethrough the acquisitionstorageextractionconversion and loading of dataETL  
processbriefly discusses the cleaning processmainly from multiple angles to complete film analysis the reportat the same time analysis  
results chart.  
Hadoop platformPython languagedata cleaningfilm analysis reportdata visualization  
Keywords:  
   
到的数据存储为 movies.csv 这是原始数据 其中仍然包含  
0    言  
很多无效或者错误的信息和符号 需要进行清洗预处理  
电影成为现代人生活放松的主要手段之一 也是消费经  
济增长重要衡量指标 所以我们提出通过对电影有关信息的  
2  数据预处理  
   
大数据分析 来探索电影相关的运行规律 电影时光网运行  
根据原始数据中影片类型和导演记录的复杂性 首先对  
“、”   
由于有部分类  
   
行之有年 累计了海量的电影数据 但这些信息分散在各个  
其中的分割符号进行统一替换成了  
网页当中  
在课程教学中模拟该网站 我们通过网页批量数据处理  
   
型出现了三个连续的逗号 给类型的分割带来困难 所以添  
加了对应的判断条件  
工具 将网页里的数据进行批量采集 再对采集到数据进行  
另外由于多条记录的类型 导演和演员值多于一个  
数据分析  
   
要进行分割 因此编写了三个通用函数 放在 lib.py 文件中  
   
以供调用 之后在对影片类型进行分割时 除了以上具有特  
1  环境搭建与数据采集  
殊分隔符的记录外 还有若干条记录具有多个影片类型而无  
首先安装 Hadoop 数据分析平台 Hadoop 目前  
分隔符  
最流行的大数据分布式运行框架平台 文件存储系统采用  
这些记录的类型均为两个汉字组成 这里采用正则循环  
   
HDFS 安装在 Linux 系统上 准备好 4 台安装完毕 Linux  
匹配两个中文字符的方法即可获得每个类型的值 处理后的  
系统的集群机器 其中一台为 Master 其他为 Slave 完成  
部分数据如表 1 所示  
ssh 的配置 完成 HBase Hive Spark Sqoop Mahout  
1  整理后的原始数据  
   
组件的安装 同时也完成 Python 开发 IDE 的安装 之后进  
level_0  
11  
index  
8
type  
历史  
校园  
魔幻  
古装  
家庭  
亲情  
战争  
推理  
box  
行数据采集  
观 察 模 拟 的 电 影 时 光 网 的 网 址 服 务 器 在 校 内 网  
),  
0
1
2
3
4
5
6
7
133972.7  
124615.5  
111818.8  
95776.5  
94813.2  
64959.0  
61511.4  
50320.6  
12  
22  
38  
9
   
可 以 发 现 其 中 的 规 律 通 用 的 网 址 是 http  
13  
//172.10.112.45/movie/****** 其中 ****** 的部分就是  
14  
   
电影的 ID 号 通过 python 代码遍历所有电影页面 收集  
15  
13  
1
16  
收稿日期 2017-10-03  
17  
18  
19  
基金项目 2017 年江苏省高等学校大学生创新创  
18  
业训练计划项目成果 201712685023T  
)。  
2017.11  
11  
总第 5 期  
现代信息科技  
得到如图 1 2 的结果进行分析  
8
19  
20  
21  
22  
23  
24  
25  
26  
27  
28  
29  
30  
31  
32  
33  
23  
14  
24  
10  
17  
7
武侠  
怀旧  
武术  
合家欢  
惊悚  
励志  
纯爱  
都市  
血腥  
电影  
荒诞  
偶像  
时尚  
3D  
45746.4  
33679.1  
28775.4  
27583.5  
27157.4  
15641.1  
15640.7  
14853.5  
11204.3  
10171.7  
5068.7  
4408.5  
1529.7  
571.0  
9
其他  
10  
11  
12  
13  
14  
15  
16  
17  
18  
19  
20  
21  
22  
历史  
青春  
动作  
1.7  
2.2  
10.9  
奇幻  
23.8  
3.1  
3.6  
动画  
剧情  
31  
36  
33  
28  
32  
2
5.7  
6.7  
9.7  
喜剧  
爱情  
9.5  
6.7  
7.2  
9.0  
21  
0
悬疑  
冒险  
35  
运动  
334.1  
犯罪  
科幻  
使用 Python 的第三方插件 pandas matlablib 等进行  
数据整理与绘图 中间的 Python 编码过程限于篇幅省略论  
1  类型票房收入饼图  
言情  
科幻  
3D  
350000  
1750000  
1500000  
1250000  
1000000  
750000  
500000  
250000  
0
7
6
5
4
3
2
1
0
奇幻  
旅行  
社会  
惊悚  
悬疑  
运动  
家庭  
犯罪  
战争  
荒诞  
亲情  
浪漫  
都市  
历史  
剧情  
古装  
励志  
校园  
青春  
喜剧  
动作  
爱情  
8
6
4
2
0
300000  
250000  
200000  
150000  
100000  
50000  
0
局部 1  
局部 2  
局部 3  
局部 4  
局部 5  
2  其他柱状与散点图  
同影片类型的欢迎程度 观众对导演执导影片的支持度  
3  数据分析与图表绘制  
3.1  数据分析依据  
结合导演和其执导过的影片类型等数据 进一步分析影  
片类型和导演等因素对观众的影响  
3.2  从票房收入角度分析影片类型对观众的影响  
   
随着电影行业的不断兴起 市场竞争越来越激烈 越来  
越多的影业公司需要对其投拍的影片类型 选择的导演进行  
从图 1 看出 动作类影片的总票房收入所占比是  
评估预测 观众群体的广泛性和个人情感的复杂性都影响着  
   
23.8% 是喜剧类票房收入所占比的两倍多 说明动作类型  
   
影业的未来发展 那么如何摸索影片类型 导演等因素对观  
   
电影最受追捧 而喜剧 冒险和科幻三种类型的票房收入在  
众选择的影响呢 从票房的角度分析影片类型被观众接受的  
总票房收入比重较接近 各占比 9.7% 9.5% 9.0% 这  
程度 导演的人气指数 其次 从评分的角度分析观众对不  
2017.11  
12  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载