推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python 的职位画像系统

更新时间:2019-12-20 22:41:43 大小:308K 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

为了汇总、归类和整合网络上杂乱无章的职位信息,设计基于Python的职位画像系统,该系统将招聘网站的招聘页面进行划分.利用Python使用Encode、Xpath和正则表达式的爬取规则设计网页爬取器,获得职位信息.利用MySQL数据库存储爬取的数据,并进行数据清洗及分析,使用Flask和Echarts实现数据可视化.该系统通过图表直观展现职位画像,帮助用户了解目前各个领域职位的需求情况,为用户提供参考,同时从各个维度搭建职位检索功能.测试结果表明,该系统具有高效的爬取效率.


部分文件列表

文件名 大小
基于Python_的职位画像系统.pdf 308K

部分页面预览

(完整内容请下载后查看)
39 卷 第 6 期  
2019 年 6 月  
高 师 理 科 学 刊  
V ol. 39 N o.6  
Jun. 2019  
Journal of Science of TeachersCollege and University  
文章编号:1007-9831(2019)06-0039-05  
Python职位画像系统  
张浩鹏1,范梅2,姜翠1,杨欣1,李1,王红2  
(齐齐哈尔大学 1.计算机与控制工程学院,2.机电工程学院,黑龙江 齐齐哈尔 161006)  
摘要:为了汇总、归类和整合网络上杂乱无章的职位信息,设计基Python职位画像系统,  
该系统将招聘网站的招聘页面进行划分.利Python使Encode、Xpath正则表达式的爬取  
规则设计网页爬取器,获得职位信息.利MySQL 据库存储爬取的数据,并进行数据清洗及  
分析,使FlaskEcharts现数据可视化.该系统通过图表直观展现职位画像,帮助用户了  
解目前各个领域职位的需求情况,为用户提供参考,同时从各个维度搭建职位检索功能.测试  
结果表明,该系统具有高效的爬取效率.  
关键词:Python;数据可视化;职位画像  
中图分类号:TP311.13  
文献标识码:A  
doi10.3969/j.issn.1007-9831.2019.06.010  
Jobportraitsystem basedonPython  
ZHANG Hao-peng1,FAN Mei-hua2JIANG Cui-xia1YANG Xin-yu1,LICheng1,W ANG Hong-yan2  
(1.SchoolofComputerandControlEngineering,2.SchoolofMechanicalandElectricalEngineering,QiqiharUniversityQiqihar161006,China)  
AbstractIn order to aggregatecategorizeand integrate the disorganized job information on the webthe job  
portrait system based on python is designedThe system divides the recruitment page of recruitment website,  
design web crawlers usingPythons crawl rules which include Encode,Xpathand regular expressionsthen get  
job informationIt usesMySQL database to store crawled datathen cleans andanalyzes thedata,and visualizes  
the data with Flask and EchartsThe system visualizes job portraits through chartshelps users understand the  
current needs of positions in various fieldsprovides users with a reference.At the same timethe job search  
functionisbuiltfrom variousdimensions.Thetestresultsshow thatthesystem hasefficientcrawlingefficiency.  
KeywordsPython;datavisualization;positionportrait  
目前,大数据对社会的发展起到越来越重要的作用[1-8].国家利用职位大数据[9-11]可以分析出职位的需  
求状态,并进行宏观调控;企业可以对应聘者进行筛选,并找到合适的人才;个人可以获得职位信息,  
并对公司情况进行了解,从而找到合适的职位.但是,随着互联网的飞速发展,网络上职位信息的数据  
也爆发式地增长,这些信息却杂乱无章.因此,本文设计了基Python职位画像系统以实现职位数据  
的汇总、归类和整合.该职位画像系统通过爬虫迅速地汇总网络上各大招聘网站的职位信息,并对信息  
进行归类整合,使用户更加高效且全面地获取关注的职位信息,包括岗位需求和任职要求,不再需要到  
各种招聘网站中搜索职位信息,提高了信息获取的效率.  
收稿日期:2019-01-20  
基金项目:黑龙江省教育厅基本科研业务专项“齐齐哈尔大学科研项目资助”(135209233);齐齐哈尔大学教育科学研究项目(2017094,  
2017020,2017019)  
作者简介:张浩鹏(1983-),男,黑龙江哈尔滨人,讲师,博士,从事嵌入式系统、大数据研究.E-mailhaopeng1983@163.com  
40  
高师理科学刊  
39卷  
通过分析,网络上各大招聘网站将职位招聘页面精确地划分为职位分类页面、职位列表页面和职位信  
息详情页面.通过分析3页面的网页结构,本系统利Python针对性地使Encode、Xpath正  
则表达式的爬取规则设计网页爬取器,实现快速且精确地获得职位信息.利用 MySQL 据库存储爬取的  
数据,利PythonScrapy虫框架对数据进行筛选和分类,包括博文数据提炼存储、博文数据的编码  
格式规格化、博文数据的分类及城市数量的统计等,按照一定规则提取博文信息的特征,用去重算法实  
现博文的数据去重.最终PythonEchartsFlask现数据可视化,帮助用户了解目前各个领域职位  
的需求情况,为正在选择未来将要进入某个领域的用户提供参考.该系统能够实时更新数据,用户可在  
短时间内检索到所需信息.  
1 模块设计  
1.1 位数据爬取模块  
职位数据爬取模块由职位分类页面爬取模块、职位列表页面爬取模块和职位详细信息页面爬取模块组  
成.  
1.1.1 位分类页面爬取模块 分析各大职位招聘网站的职位分类页面HTML 码,定制不Xpath规  
则,爬取大分类名称及其子分类的链接.爬取到的数据存储到 MySQL 据库中,在数据库中构建职位分  
类表,存储职位分类数据.且传递数据给职位列表页面抓取模块,进行后续处理,同时进行异常捕获处  
理,记录异常信息到日志文件,并通过定时邮件发送日志数据.  
1.1.2 位列表页面爬取模块 接收职位分类页面爬取模块传递来的大分类名称URL 接,分析职位列  
表页面HTML 码,定制不Xpath则,爬取子分类名称和职位详细页面链接.爬取到的数据存储  
到MySQL 据库中,在数据库中构建职位列表,存储职位列表数据.且传递数据给职位详细页面爬取模  
块,进行后续处理,记录异常信息到日志文件,并通过定时邮件发送日志数据.  
1.1.3 位详细信息页面爬取模块 接收职位列表页面爬取模块传递来的子分类名称URL 接,分析职  
位信息页面HTML 码,定制不同网站数据字段Xpath则,爬取职位名称、公司名称、月薪、工  
作地点、发布时间、公司性质、工作经验、最低学历、招聘人员数量、职务级别、公司规模、公司性质  
和职位描述等信息.爬取到的数据还应存储MySQL 据库中,在数据库中构建职位详细信息表,存储  
职位详细信息数据.职位描述中存储了岗位职责和职位要求等数据,为了后期可以进行职位技能树构  
建,需要把2分数据分离,并且不同页面类似数据标注的标题都有所区别,所以需要考虑多种情  
况.为了快速实现这个文本提取操作,使用正则表达式是最好的选择.爬取到的数据需要做基本的字符  
串处理,例如:去除两端空格、去除异常符号等,然后把数据交给 ItemScrapyItem Pipeline  
管道进行后续处理.有些职位数据已经无效,需要做无效判断,初步过滤数据.记录异常信息存储入日  
志文件中,并通过定时邮件发送日志数据.  
1.2 据存储模块设计  
将职位数据爬取模块爬取到的数据存储MySQL 据库中.在数据库中构建职位分类表、职位列表  
和职位详细信息表,分别存储职位分类数据、职位列表数据和职位详细信息数据.  
1.3 据清洗模块设计  
不同的招聘网站设置的职位字段的个数不同,职位字段名称不同,数据具体描述也不同,所以不同来  
源字段需要做字段数据格式化处理,否则数据就会出现冗余,影响存储、后序的数据分析和数据可视化  
操作.所以需要将工作经验、最低学历、公司行业及职位类别等数据转换为同样的数据描述,即把类似  
的数据转换为同一种表达.  
一家公司可能在多个招聘网站发布相同的职位,或者可能在一个网站反复发布相同的职位,这会造成  
职位数据聚合出现不准确的数据结果.所以需要对公司名称、职位名称、工作经验和最低学历进行相似  
度匹配,进而判断是否是同一个职位,剔除重复职.  
很多过滤后的数据存在两端空格、异常字符、多余文本信息和空数据等情况,所以需要对数据进行清  
洗,如空数据的替换、异常数据的转换和异常时间的替换等,从而标准化数据.  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载