- 1
- 2
- 3
- 4
- 5
基于hadoop的招聘数据采集数据分析数据可视化
资料介绍
近年来随着IT产业的快速发展,全国各地对IT 类的人才需求数量也在不断
增多,“XHS集团”为了明确今后IT产业人才培养方向,在多个省份进行 IT公
司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘
网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、
招聘人数等信息,并通过数据的清洗和分析,最终分析出当前IT产业热门岗位、
大数据相关岗位从业人员数量等信息,并进行可视化呈现。
作为该项目组的技术人员,你们是这次技术方案展示的核心成员,请按照
下面步骤完成本次技术展示任务,并提交技术报告,祝你们成功。
任务一: Hadoop 平台及组件的部署管理( 15 分)
1) 将指定路径下的Hive 安装包解压到指定目录下;
2) 把解压后的apache-hive-1.1.0-bin 文件夹更名为 hive;
3) 设置Hive 环境变量,并使环境变量只对当前root 用户生效;
4) 将 Hive 安装目录下 hive-default.xml.template 文件更名为 hive-site.xml;
5) 在 Hive 安装目录里创建临时文件夹;
6) 新建并配置 hive-site.xml 文件,实现“Hive 元存储”的存储位置为 MySQL数
据库;
7) 初始化Hive 元数据;
8) 启动Hive。
任务二、数据采集( 15 分)
1) 从各类招聘网站中抓取数据,提取数据项至少包括以下字段:“公司名
称”、“工作城市”、“工作要求”、“招聘人数”、工资情况”(格式:
‘底薪-上限’)、“name”(岗位名称)、“detail”(职位详情),并保存;
2) 爬取的数据需要导入hadoop 平台进行数据清洗与分析,将数据保存至 HDFS
系统中。
任务 三 、数据清洗与分析(2 25 5 分)
1 、为 便于 数据分析与可视化,需要对爬取出的数据进行清洗,清洗出不包 含空
字 段 的职位信息数据,清洗后的职位数据各字 段间 用 竖线 “,” 分 割 。数据清洗
采用 MapReduce 程序 。
1) 使用编写数据清洗的MapReduce 程序(原始数据中已包含职位描述的分词
结果);
2) 将编写好的文件上传并对HDFS 的原始数据进行清洗;
3) 将清洗后的数据加载到Hive 数据仓库中。
2 、数据清洗需要将清洗 程序 jar 包上 传至 至 hadoop 平台上进行 运 行,并将清洗后
结果保 存至hive 数据库中,以 便 后 续 应用。
1) 将 jar 包上传至 hadoop 平台的/root 目录下;
2) 执行mapreduce 任务,并写出执行命令;
3)将执行成功后的数据保存在 HDFS 文件系统的/Clean 目录下;
3) 将清洗后数据存储到hive 中 task 数据库的cleandata 表中。
3 、 运行 行 HQL 命令 ,完成以下数据的分析 统 计
1)统计各岗位招聘数量,将结果写入cleantable 表中;
2)查询“数据”相关岗位的技能要求,将查询结果写入table_bigdata 表中;
3)在 hive 中执行 keycount.sql 脚本,并查看keycount 表中所有核心技能的出现
次数。
注:核心技能关键词如下:c++、Scala、FFlume、Flink、ETL、数学、数据仓库、
Hbase、Hadoop、Python、Java、Kafka、Storm、Linux、Hive、Spark。
任务 四 、数据可视化( 20 分)
数据可视化呈现内容如下:
1) 使用柱状图展示指定方向当前招聘数量最多的前十个热门职位;
2) 使用折线图展示“大数据”相关职位招聘数量差异;
3) 通过词云的方式对“大数据”相关职位的知识技能要求进行可视化展示。
部分文件列表
文件名 | 大小 |
任务二/ | |
任务二/Hadoop平台及组件的部署管理/ | |
任务二/Hadoop平台及组件的部署管理/readme.txt | 5KB |
任务二/数据分析/ | |
任务二/数据分析/Hive/ | |
任务二/数据分析/Hive/keycount.sql | 1KB |
任务二/数据分析/Hive/part-r-00000 | 449KB |
任务二/数据分析/Hive/任务二-hive.txt | 1KB |
任务二/数据分析/MapReduce/ | |
任务二/数据分析/MapReduce/Main.java | 1KB |
任务二/数据分析/MapReduce/map.java | 1KB |
... |
最新上传
-
21ic小能手 打赏10.00元 3天前
-
21ic小能手 打赏10.00元 3天前
-
21ic小能手 打赏10.00元 3天前
-
21ic下载 打赏310.00元 3天前
用户:小猫做电路
-
21ic下载 打赏310.00元 3天前
用户:gsy幸运
-
21ic下载 打赏310.00元 3天前
用户:liqiang9090
-
21ic下载 打赏310.00元 3天前
用户:zhengdai
-
21ic下载 打赏160.00元 3天前
用户:w1966891335
-
21ic下载 打赏160.00元 3天前
用户:w178191520
-
21ic下载 打赏160.00元 3天前
用户:kk1957135547
-
21ic下载 打赏40.00元 3天前
用户:WK520077778
-
21ic下载 打赏40.00元 3天前
用户:sun2152
-
21ic下载 打赏30.00元 3天前
用户:xuzhen1
-
21ic下载 打赏50.00元 3天前
用户:铁蛋锅
-
21ic下载 打赏30.00元 3天前
用户:xzxbybd
-
21ic下载 打赏40.00元 3天前
用户:z00
-
21ic下载 打赏40.00元 3天前
用户:forgot
-
21ic下载 打赏40.00元 3天前
用户:happypcb
-
21ic下载 打赏20.00元 3天前
用户:zhaoqshan
-
21ic下载 打赏5.00元 3天前
用户:17724187683
-
21ic下载 打赏5.00元 3天前
用户:zmm1818
-
21ic小能手 打赏15.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
chenruiji 打赏1.00元 3天前
资料:血糖仪原理图
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏10.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏10.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏5.00元 3天前
资料:测试智能语音控制模块
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
21ic小能手 打赏10.00元 3天前
-
21ic小能手 打赏10.00元 3天前
-
cai0603 打赏3.00元 3天前
用户:CJQ_ENJOY
-
21ic小能手 打赏5.00元 3天前
全部评论(0)