推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于hadoop的招聘数据采集数据分析数据可视化

更新时间:2021-06-30 22:56:18 大小:1M 上传用户:哈哈憨憨查看TA发布的资源 标签:hadoop数据采集数据分析 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

近年来随着IT产业的快速发展,全国各地对IT 类的人才需求数量也在不断

增多,“XHS集团”为了明确今后IT产业人才培养方向,在多个省份进行 IT公

司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘

网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、

招聘人数等信息,并通过数据的清洗和分析,最终分析出当前IT产业热门岗位、

大数据相关岗位从业人员数量等信息,并进行可视化呈现。

作为该项目组的技术人员,你们是这次技术方案展示的核心成员,请按照

下面步骤完成本次技术展示任务,并提交技术报告,祝你们成功。

任务一: Hadoop 平台及组件的部署管理( 15 分)

1) 将指定路径下的Hive 安装包解压到指定目录下;

2) 把解压后的apache-hive-1.1.0-bin 文件夹更名为 hive;

3) 设置Hive 环境变量,并使环境变量只对当前root 用户生效;

4) 将 Hive 安装目录下 hive-default.xml.template 文件更名为 hive-site.xml;

5) 在 Hive 安装目录里创建临时文件夹;

6) 新建并配置 hive-site.xml 文件,实现“Hive 元存储”的存储位置为 MySQL数

据库;

7) 初始化Hive 元数据;

8) 启动Hive。


任务二、数据采集( 15 分)

1) 从各类招聘网站中抓取数据,提取数据项至少包括以下字段:“公司名

称”、“工作城市”、“工作要求”、“招聘人数”、工资情况”(格式:

‘底薪-上限’)、“name”(岗位名称)、“detail”(职位详情),并保存;

2) 爬取的数据需要导入hadoop 平台进行数据清洗与分析,将数据保存至 HDFS

系统中。

任务 三 、数据清洗与分析(2 25 5 分)

1 、为 便于 数据分析与可视化,需要对爬取出的数据进行清洗,清洗出不包 含空

字 段 的职位信息数据,清洗后的职位数据各字 段间 用 竖线 “,” 分 割 。数据清洗

采用 MapReduce  程序 。

1) 使用编写数据清洗的MapReduce 程序(原始数据中已包含职位描述的分词

结果);

2) 将编写好的文件上传并对HDFS 的原始数据进行清洗;

3) 将清洗后的数据加载到Hive 数据仓库中。

2 、数据清洗需要将清洗 程序 jar  包上 传至 至 hadoop  平台上进行 运 行,并将清洗后

结果保 存至hive 数据库中,以 便 后 续 应用。

1) 将 jar 包上传至 hadoop 平台的/root 目录下;

2) 执行mapreduce 任务,并写出执行命令;

3)将执行成功后的数据保存在 HDFS 文件系统的/Clean 目录下;

3) 将清洗后数据存储到hive 中 task 数据库的cleandata 表中。

3 、 运行 行 HQL  命令 ,完成以下数据的分析 统 计

1)统计各岗位招聘数量,将结果写入cleantable 表中;

2)查询“数据”相关岗位的技能要求,将查询结果写入table_bigdata 表中;


3)在 hive 中执行 keycount.sql 脚本,并查看keycount 表中所有核心技能的出现

次数。

注:核心技能关键词如下:c++、Scala、FFlume、Flink、ETL、数学、数据仓库、

Hbase、Hadoop、Python、Java、Kafka、Storm、Linux、Hive、Spark。

任务 四 、数据可视化( 20 分)

数据可视化呈现内容如下:

1) 使用柱状图展示指定方向当前招聘数量最多的前十个热门职位;

2) 使用折线图展示“大数据”相关职位招聘数量差异;

3) 通过词云的方式对“大数据”相关职位的知识技能要求进行可视化展示。


部分文件列表

文件名大小
任务二/
任务二/Hadoop平台及组件的部署管理/
任务二/Hadoop平台及组件的部署管理/readme.txt5KB
任务二/数据分析/
任务二/数据分析/Hive/
任务二/数据分析/Hive/keycount.sql1KB
任务二/数据分析/Hive/part-r-00000449KB
任务二/数据分析/Hive/任务二-hive.txt1KB
任务二/数据分析/MapReduce/
任务二/数据分析/MapReduce/Main.java1KB
任务二/数据分析/MapReduce/map.java1KB
...

全部评论(0)

暂无评论