推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Hadoop和Python的高校图书馆个性化服务的研究与应用

更新时间:2019-12-22 14:52:31 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

基    金】 北京中医药大学自主科研课题,项目名称:基于大数据的学生个人画像,项目编号:2017-JYB-JS-034


部分文件列表

文件名 大小
基于Hadoop和Python的高校图书馆个性化服务的研究与应用.pdf 1M

部分页面预览

(完整内容请下载后查看)
No.6  
M a r c h 2 0 1 9  
无线互联科技  
Wireless Internet Technology  
第6期  
2019年3月  
基于Hadoop和Python的  
高校图书馆个性化服务的研究与应用  
刘 哲  
(北京中医药大学 信息中心 100029)  
大数据背景何利用信息化技术握在校学生的阅读习惯海量的图书资源速有效地找到需要的书,  
为学生提供个性化服务推荐文章研究的主要目的要研究方法是通过 Sqoop 工具将北京中医药大学数据中心 8 304 名  
学生的图书借阅信息同步到 Hadoop 平 台 并 进 行 整 理 Python 作 为 数 据 处 理 语 通 过 K-means 聚类算法获取有相似阅读  
习惯的书籍理结可以将有相似阅读习惯的学生挖掘出来他们所阅读的书籍作为互相推荐的依据性化的图  
书服务当前的研究也存在局限性不包括半结构化的电子阅读信息的采集和分析章通过对研究进行结果分供  
种个性化图书服务的框架和处理方法实现性化图书推荐提供个性化服务的研究提种思路和方法。  
关键词大 数 据 高 校 图 书 馆 ;个 性 化 服 务  
随着大数据和人工智能的到来信息爆炸的今天获取学生所有借阅图书的基本大类照分类号分组统计  
统的借阅方式已经不能满足高校学生高质量的阅读的要求。 书籍的数量定学生借读的广度和深度否与本专业相  
高校图书馆与学生之间不再是一个简单的借阅关系应该 关等信息学生个性化阅读的习惯。  
根据学生的兴趣爱好读习惯关注的热点等信息有  
针对性地快速提供个性化服务推荐[1]提 高 学 生 的 阅 读 效 率  
2
基于Hadoop平台的数据采集  
随着云计算数据等技术的兴起与发展育信息化  
和质量着高校信息化的蓬勃发展校数据中心日趋完 领域也迎来了大数据技术带来的机遇和挑战校各业务系  
据量指数级增长数据平台的数据存储与处理已经 统和互联网数据的极速增长用海量数据分析和挖掘学  
在高校中应用的越来越广泛文利用Sqoop工具[2]将 学 生 的行为轨迹费习惯习成绩业倾向建学生个  
阅读相关的数据同步到Hadoop平台[3]Hive表 中 利 用 Hive 人画像等经成为智慧化校园面对的挑战。  
所提供的完整SQL语句对数据进行整理整理后的数据  
HadoopApache基金会维护的分布式系统基础架构[7],  
利用Python语言[4]进行分析据学生的阅读习惯进行聚 它实现个分布式文件生态系Hadoop Distributed File  
到相似阅读兴趣的学生取他们的阅读书籍SystemHDFS,通 过 Map Reduce的 技 术 来 满 足 海 量 数  
推荐现个性化服务。  
中国图书馆图书分类方法  
据存储和高性能的分析处理[8]同 时 ,HadoopHBase、  
HivePigSqoop等 众 多 开 源 项 目 的 支 持 形 成 了 一 个 完  
1
中国图书馆图书分类法[5]是按照图书的内容择多样的大数据解决方案Cloudera公司推出了  
裁和读者用途等一定的哲学思想指导下用知识分类 Hadoop集成发行版本[9]极 大 地 简 化 了 大 数 据 平 台 的 部 署  
的原理用逻辑方法所有学科的图书按其学科内容分 和 维 护 流 程 本 文 选 择 Cloudera的开源版本CDH5构 建  
成几大类一大类下分许多小类一小类下再分小类。  5台物理机节点的大数据分析平5个存储计算结  
最后一种书都可以分到某一个类目一个类目都有 点2个管理64 G内存24CPU1 T的  
一个类号类词表是层次结构的类号和类目的集国 存储空间节点之间通过千兆以太网互联互通全能满  
图书馆分类法中图法为第5包 括 马 列 主 义 、 学校的数据分析需求。  
毛泽东思想会科学然科学合性图书5大部  
22个基本大类。  
本文采集全校8 304名 在 读 学 生 的 借 阅 数 据 采 用 增 量  
追 加 编 写 Shell批量命令到文件SqoopTime.sh设 置 每 天  
北京中医药大学图书馆的所有图书都是按照中国图书 执 行 一 次 保 持 数 据 的 同 步 。采 集 到 Hadoop平台的数据,  
馆图书分类方法进行的分类所有图书的基本信息都已 利用Hive中提了类似SQL的完整查询语句行预处  
经录入图书管理系统的数据库[6]本 文 主 要 的 研 究 方 法 ,就 理 ,处 理 结 果 如 表 1所示表按分类号分组统个学  
基金项目北 京 中 医 药 大 学 自 主 科 研 课 题 项 目 名 称 :基 于 大 数 据 的 学 生 个 人 画 像 ;项 目 编 号 :2017-JYB-JS-034。  
作者简介1982 西 中人 助 理 研 究 员 ,硕 士 ;研 究 方 向 :数 据 挖 掘 。  
-127-  
No.6  
M a r c h 2 0 1 9  
第6期  
2019年3月  
无线互联科·实验研究  
生的阅读量。  
表1 预处理结果  
学号  
3
基于Python的数据分析与处理  
通过HIVE预处理后的数据不适合数值计算或数据  
挖掘的格式[10]本 文 利 用 Python自带的数值分析库Pandas提  
供的pivot_table()函数预处理结果进行转换得到二维矩  
2是学生借阅图书分类矩阵。  
分类号  
阅读量()  
20140001004  
20140001012  
20140001012  
20140001012  
R
13  
2
3.1 获取阅读量排前的图书分类  
Heatmap分 析 [11]是可以用颜色变化来反映二维  
矩阵或表格中的数据信息可以直观地将数据值的大小以  
定义的颜色深浅表示出来根据需要将数据进行物种或  
样品间丰度相似性聚类[12]聚类后数据表示在heatmap 图  
将高丰度和低丰度的物种分块聚集过颜色梯度及  
相似程度来反映多个样品在各分类水群落组成的相似  
性和差异性Python了一 个 Seaborn它 主 要 关 注 统 计  
模 型 的 可 视 化 该 库 提 供 了 heatmap函数映二维矩阵的  
相似度聚类关系以得到所有图书22个分类的热图。  
I
K
1
R
7
… …  
R
20180944014  
2
表2 学生借阅图书分类  
学号  
A
0
B
0
C
0
D
0
E
0
0
F
G
0
H
I
J
0
0
K
0
N
0
O
0
P
0
0
Q
0
R
13  
7
S
0
0
T
0
0
X
0
Z
0
0
阅读量  
13  
20140001004  
20140001012  
0
0
0
0
0
2
0
0
0
0
0
1
0
0
0
0
10  
… …  
20180944014  
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
0
0
0
2
3.2 阅读量数字化分析与处理  
阅种类数通过describe()函数获取统计值果如表5所  
统计出学生阅读总量后们通过Python语言Pandas包 示 平 均 借 阅 种 类 为 4借 阅 种 类 标 准 差 3学 生 个 人 最  
提供的describe()函数获取相关统计值[13]结 果 如 表 3所示。 大借阅种类18及借阅种类的四分位数的3个分割点分别为  
在校生中共有4 910人借阅过书籍均借阅量3235同 样 ,用 分 位 数 将 阅 读 种 类 分 为 4个 等 级 我 们 就 可  
阅量标准差4学 生 个 人 最 大 借 阅 量 72本及借阅量的四分 以得到每个学生在校借阅种类的数字化6所示。  
位数[14]3个分割点分别为236。  
表4 阅读量编码  
表3 阅读量的统计值  
阅 读 ydl)  
ydl<=2  
1
2<ydl<=3 3<ydl<=6  
ydl>=6  
4
count mean  
4 910  
std  
4
min  
1
25%  
2
50%  
3
75%  
6
max  
72  
编码  
2
3
3
表5 阅读种类的统计值  
分位数回归思想的提出至今已经有近30多 年 分 位 数  
回归在理论和方法上都越来越成熟被广泛应用于多种  
学科对于实际问题能提供更加全面的分析论是线  
性模型还是非线性模型位数回归都是一种很好的工具。  
本文用四分位数将阅读量分为4个 等 ( 见 表 4,这 样 我 们  
就得到个在校学生阅读量数字化。  
count mean  
4 910  
表6 阅读种类编码  
std  
min  
1
25%  
50%  
3
75%  
5
max  
18  
4
3
2
种类(fw)  
fw<=2  
1
2<fw<=3  
2
3<fw<=5  
3
fw>=5  
4
3.3 阅读种类数字化分析与处理  
本文分析学生所借图书的种类将其作为学生阅读  
是 否 广 泛 的 指 标 首 先 ,我 们 通 过 分 组 计 数 获 取 每 个 学 生 借  
编码  
-128-  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载