推荐星级:
- 1
- 2
- 3
- 4
- 5
Python 数据挖掘在高校人才引进中的应用
资料介绍
随着大数据时代的来临、互联网技术的快速发展,如何从海量数据中挖掘出潜在的、有价值的信息,成为当下热门的研究和实践方向之一。Python因其强大的科学计算能力成为数据挖掘领域不可或缺的工具。基于Python语言对高校人事、科研及互联网数据进行挖掘和分析,构建人才发现系统,为高校引进高水平人才提供决策支持。
部分文件列表
文件名 | 大小 |
Python_数据挖掘在高校人才引进中的应用.pdf | 2M |
部分页面预览
(完整内容请下载后查看)《中国教育信息化》编辑部:mis@moe. edu. cn
教育大数据
*
Python 数据挖掘在高校人才引进中的应用
ꢉ
陈 镭 ,张凡龙
ꢍ
( 南京审计大学 人力资源部,江苏 南京
ꢉꢃ
;
ꢍꢉꢉ8ꢉꢋ
南京审计大学 信息工程学院,江苏 南京
)
ꢍꢉꢉ8ꢉꢋ
ꢍꢃ
摘
要:随着大数据时代的来临、互联网技术的快速发展,如何从海量数据中挖掘出潜在的、有价值的
信息,成为当下热门的研究和实践方向之一。 因其强大的科学计算能力成为数据挖掘领域不可或缺
Python
语言对高校人事ꢁ科研及互联网数据进行挖掘和分析,构建人才发现系统,为高校引
的工具ꢀ 基于
Python
进高水平人才提供决策支持ꢀ
关键词: ;
Python ꢀcrapy
网络爬虫;数据挖掘; ;人才引进
ꢀklearn
中图分类号:
TP3ꢉꢉ
文献标志码:
文章编号: ( )
ꢉꢓꢔ3-8ꢑꢋꢑ ꢍ0ꢉꢒ ꢉꢋ-00ꢋꢍ-03
ꢕ
一、引言
数据挖掘技术是一门涉及数理统计、人工智能以及
知识工程等领域的新兴交叉学科, 包含一套完整的过
大数据时代,数据的规模在不断扩大,数据呈现出
体量大、多样性、价值密度变低、关系复杂的特点。 从一
般的信息系统中获取具有决策价值的信息变得越来越
困难ꢀ 如何做好高校人才队伍长期发展规划,满足高校
快速发展当中对高水平人才的需要,人事管理部门迫切
需要拥有智慧的信息系统, 对目前掌握的大量人事ꢁ科
研、教学信息进行分析、挖掘,对学校引进人才进行科学
规划与评测,对在校人员进行科学培养与管理提供决策
支持ꢀ
[1]
程ꢀ 该过程首先从数据库、数据仓库或大数据集中抽取
潜在有价值的知识、模型或规则,然后使用这些知识做
出决策ꢀ 换一种说法,数据挖掘技术是通过多种复杂算
法,在大量未加工数据中发现数据间潜在关系以及有效
知识ꢀ 近年来,数据挖掘技术在金融业、零售业、医疗和
电信等多种行业都取得了显著成果ꢀ
语言是当今最热门的程序设计语言之一ꢀ 它
Python
是一种面向对象的语言, 拥有较好的交互性、 解释性ꢀ
基金项目:本文系国家自然科学基金青年项目“面向鲁棒特征提取的矩阵秩极小化问题研究”(
)ꢀ
ꢓꢉꢓ03ꢉꢒꢍ
*
向数据驱动的精准教学
北京 科学出版社
ꢊ
[5]Steve Kearns.ꢀix Reasons Businesses Need to Pay
[M]ꢃ
,ꢍꢌꢉ8ꢃ3ꢊꢍꢍꢑꢃ
北京 北京
罗照盛 认知诊断评价理论基础
ꢃ
Attention to Unstructured Data [Eꢁ/OL]. http:ꢂꢂwwwꢃ
itbusinessedge.comꢂslideshowsꢂsix -reasons -businesses -
need-to-pay-attention-to-unstructured-data-0ꢄꢃhtmlꢃ
[6]Yuejin Xu, Noah Reynoldsꢃ Using Text Mining
[ꢉ0]
[M]ꢃ
ꢊ
师范大学出版社
,ꢍ0ꢉꢒꢃꢍꢊ3ꢃ
付志慧 多维项目反应模型应用理论
ꢃ
北京
ꢊ
[ꢉꢉ]
科学出版社
[M]ꢃ
,ꢍ0ꢉꢔꢃ3ꢊ3ꢃ
’
Techniques to ꢅnalyze ꢀtudents Written Responses to ꢅ
张琪编著 学习分析技术与方法
ꢃ
北京 科学
ꢊ
[ꢉꢍ]
出版社
[M]ꢃ
Teacher Leadership Dilemma [ꢅ]ꢃProceedings of the 2011
4th Iꢆꢆꢆ International Conference on Computer ꢀcience
and ꢇnformation Technology [C]ꢃNew Yorkꢈ ACM
,ꢍ0ꢉ8ꢃꢉꢍꢊꢓ-ꢔꢃ
刘月霞 郭华主编 深度学习
—
——走向核心素养
,ꢍ0ꢉ8ꢃꢉꢉꢊꢓ-ꢔꢃ
刘三 杨宗凯 量化学习——数据驱动下的学
[ꢉ3]
,
ꢃ
北京 教育科学出版社
[M]ꢃ
ꢊ
石月凤 刘三 刘智 韩继辉 彭晛 基于社会网络
, , , , ꢃ
—
[7]
[ꢉꢑ]
,
ꢃ
分析的在线学习行为分析实证研究 中国教育信息化
[J]ꢃ
习行为分析
北京 科学出版社
ꢊ ,ꢍ0ꢉꢓꢃꢓꢊ8ꢋꢃ
,
[M]ꢃ
祝智庭 孙妍妍 彭红超 解读教育大数据的文化
2019(ꢉ)ꢊꢋ-ꢉꢌꢃ
[ꢉꢋ]
意蕴[J]ꢃ电化教育研究,ꢍ0ꢉꢔ(ꢉꢐꢊꢍꢒꢃ
孔兴隆 运用学业质量检测数据,诊断与改进学
,
,
ꢃ
刘三 周东波 李浩 孙建文 于杰 基于地图的教
, , , , ꢃ
[8]
育大数据可视分析方法探讨 电化教育研究
[J]ꢃ
,ꢍꢌꢉꢎ(ꢏꢐꢊ
[ꢉꢓ]
ꢃ
生的学习 考试研究
[J]ꢃ
ꢑꢒ-ꢋꢓꢃ
,ꢍ0ꢉꢓ(3ꢐꢊꢓ3ꢃ
杨现民 田雪松 中国基础教育大数据 走
, ꢃ ꢍꢌꢉꢓ-ꢍꢌꢉꢔꢊ
(编辑:王天鹏)
[ꢒ]
中国教育信息化/2019.15
52
《中国教育信息化》编辑部:mis@moe. edu. cn
教育大数据
发展势头迅猛, 在
年热门计算机语言排行
数据预处理
Python
中,
2017
,排名第一。 开源社区
Pyꢀhon
3.
数据预处理阶段首先对数据库中的各种数据进行
清洗,填充空数据,更正无效数据,排除无关联属性数据
等非正常数据。 工具包的
已超过
和
Pyꢀhon
用户活跃,越来越多的支持数据挖掘各项技术的代码库
被开发出来, 使其拥有强大 的 科 学 计 算 能 力 。 目 前
语言是数据挖掘领域中最热门的工具之一。 本文
Java
C
、 、
Numpy ꢂandas Maꢀploꢀlib
ꢂyꢀhon
等工具提供了强大的数据处理及矩阵运算能力。 数据预
处理阶段一般对数据进行批量操作。利用以上
ꢂyꢀhon
具包,结合数据预处理相关技术,就能够快速、大批量地
对非法格式数据进行格式化操作。
数据挖掘建模
Pyꢀhon
详细介绍了
语言在数据挖掘领域简易而强大的
工
Pyꢀhon
功能,在对大量科研人员成果数据进行挖掘分析的基础
上,指导高校人才引进工作。
二、技术可行性
4.
数据挖掘的一般步骤为问题定义、数据采集、数据
基于
编写的
库在机器学习、数据挖
ꢄklearn
ꢂyꢀhon
存储、数据预处理、数据建模和模型评估。
在数据
掘领域具有很高的知名度, 库中包含大量数据挖掘和
机器学习的经典算法。 同时库中也含有丰富的测试调
试工具,对算法运行过程中所需参数进行调整和优化。
Pyꢀhon
挖掘中的关键步骤如图 所示。
ꢁ
数据来源有两处, 一是从现有人事、 科研系统导
入,二是使用 框架爬取网络数据。 然后把这些爬
Scrapy
工具包中封装的经典算法有分类、回归、聚类、
ꢄklearn
关联规则、降维等,另外还包含模型选择和模型评估等
模块。
到的数据使用
包存储到
数据库,从
MongoDB
pymongo
而在后续分析中使用。 在数据预处理及数据挖掘阶段
常用的 工具包,包含
、 、 、
Numpy ꢂandas Maꢀploꢀlib
三、系统分析与设计
ꢂyꢀhon
等。
本文将人事、科研系统数据和知网科研论文数据集
成,对这些数据进行深度挖掘和统计分析,构建人才发
现系统,从而实现高校人才发现、人才科研评价和研究
热点发现等功能,为高校职能部门和高层决策者提供多
Skleꢃrn
维度的智能分析功能。
[3]
人才发现
1.
数据采集模块使用
工具自动抓取知网已收
ꢄcrapy
录的中、外文论文数据,作为人才发现的基础数据。
Web
MongoDB
网页解析模块提取数据并按照指定格式存储到
数据库。 数据预处理模块用于统一数据格式,清除重复
样本,清除疑似错误异常的样本,清除偏离整体分布的
样本,过滤无效样本。 数据挖掘模块综合考虑论文标题、
关键词、作者及其单位、合作者及其单位、发表时间、发
表期刊、期刊级别、引用次数、下载次数、中图分类号等
信息。 科学分配权重,设计算法,建立挖掘模型,最终返
回所关注学科的研究人员列表,对高层次人才引进工作
起到辅助作用。
图
数据挖掘流程图
Python
1
[2]
数据采集
1.
通过爬虫技术,可以在指定网站上获取到想要的数
爬虫框架就是使用 语言开发并封装的
据。
ꢄcrꢃpy
ꢂyꢀhon
ꢄcrꢃpy
项目,爬虫自动运行,即可
一个强大的爬虫工具。 首先创建
项目,然后编写
定制的爬虫规则,运行
ꢄcrꢃpy
获得想要的网络数据。
人才科研评价
2.
主要对校内现有人员的科研论文发表情况进行分
析。 校内现有教学科研人员分为三类——科研为主型、
数据存储
2.
大多数传统意义上的关系型数据库,在存储非单一
数据格式上有较大的困难。 通常在爬虫数据中,既有关
系型数据,也有非关系型数据,所以更适合使用
—
科研教学并重型以及教学为主型。 人事系统中包含教职
[4]
工的详细信息。 在数据预处理的时候,首先去掉一些与
NoꢄQL
非关系型数据库存储。
数据库数据模型更加灵
分类、挖掘无关的字段,如姓名、手机号码、家庭住址等,
保留与分类和规则挖掘相关字段,如职工编号,以区分
各教职工。 为了便于对被评测的教师进行挖掘分析,需
对各字段离散化。 职称分为“初级、中级、副高、正高”,分
NoꢄQL
活,数据间不存在关系,从而数据读写更简易,数据扩展
更方便。 本文研究选择当前热门的 数据库,对
MongoDB
爬取的数据进行导入后存储,供后序操作使用。
The Chinese Journal of ICꢀ in Educꢁtion
53
全部评论(0)