推荐星级:
- 1
- 2
- 3
- 4
- 5
个体差异对Python爬虫获取教育大数据的影响研究
资料介绍
为了调查不同个体之间获取教育大数据途径的差异以及探讨Python爬虫对获取教育大数据的影响,本研究采用问卷调查的形式,对计算机、统计学相关专业的师生进行了调查。本文采用SPSS19.0对收回来的数据进行分析,统计他们常用的教育大数据获取方法,比较不同个体之间获取教育大数据的区别。研究发现,目前获取教育大数据的主要途径还是在线搜索,且不同职业、年级、性别的个体无显著差异,编程经验和年限对Python爬虫获取大数据途径有显著影响,但主观因素影响不大。
部分文件列表
文件名 | 大小 |
个体差异对Python爬虫获取教育大数据的影响研究.pdf | 2M |
部分页面预览
(完整内容请下载后查看)《中国教育信息化》编辑部:mis@moe. edu. cn
管理信息化
个体差异对 Python 爬虫
*
获取教育大数据的影响研究
,
1 1 2 3
王世纯 ,许新华 ,张洪春 ,黄嘉成
1
( 湖北师范大学 研究生院,湖北 黄石
1.
;
4350ꢀꢀ
湖北师范大学 教育信息与技术学院,湖北 黄石
;
435ꢀꢀꢀ
2.
湖北职业技术学院 信息学院,湖北 孝感
)
432ꢀꢀꢀ
3.
摘
要:为了调查不同个体之间获取教育大数据途径的差异以及探讨
爬虫对获取教育大数据的
Python
影响,本研究采用问卷调查的形式,对计算机、统计学相关专业的师生进行了调查。 本文采用
对收
SPSS19.ꢀ
回来的数据进行分析,统计他们常用的教育大数据获取方法,比较不同个体之间获取教育大数据的区别。研
究发现,目前获取教育大数据的主要途径还是在线搜索,且不同职业、年级、性别的个体无显著差异,编程经
验和年限对 爬虫获取大数据途径有显著影响,但主观因素影响不大。
Python
关键词:
Python
;网络爬虫;教育大数据
中图分类号:
G43
文献标志码:
文章编号: ( ꢀ
1673-8454 2ꢀ18 ꢀ9-ꢀꢀ79-ꢀ3
A
一、引言
伴随着“互联网 ”、物联网、云计算时代的到来,大
+
对计算机语言使用的熟悉程度也有一定的考验。 那么如
何在大量的教育数据中获取我们所需要的、有用的信息
是每一个教育研究者应该考虑的问题。
二、相关概念
数据在我们的生产生活中扮演着越来越重要的角色,可
以说大数据已经渗透到每一个行业。 联合国在
年
2012
发布的大数据白皮书 《
:
Big Data for Development Chal-
网络爬虫
1.
》中指出大数据的出现将会对社会
网络爬虫(又称网络蜘蛛、网络机器人),是一种按
lenges & Opportunities
[1]
各个领域产生深刻影响。 在教育领域,每天都会产生海
[4]
照一定的规则,自动地抓取万维网信息的程序或者脚本。
[2]
量的教育大数据, 获取教育大数据的途径也有很多,例
网络爬虫按照系统结构和实现技术,大致可以分为以下
几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬
如线下调查、在线搜索、网络调查问卷和网络爬虫等等。
本研究为了探究个体差异对教育大数据获取途径的影
[4]
虫、深层网络爬虫。 实际的网络爬虫是由几种爬虫技术
响,对计算机、统计学相关专业师生的编程能力、
结合实现的。 随着“互联网ꢀ”的发展,网络信息量呈现出
爆发式增长,仅仅只用搜索引擎已经不能快速、准确地
获取到我们所需要的信息,并且会附带着额外的我们不
需要的广告信息,因此,网络爬虫应运而生。
Python
技术掌握程度以及获取教育大数据的途径进行了调查。
是一种面向对象的解释性计算机程序语言,
Python
其实它问世的时间并不长,但它以其简洁的语法、丰富
的标准库和强大的第三方库,已经完全能够和
、
等
教育大数据
2.
C C++
[2]
语言轻松联结,并重写封装为可用的标准类库,易于扩展。
教育大数据分为广义和狭义,广义的教育大数据泛
指所有来源于日常教育活动中人类的行为数据;狭义的
现已逐渐取代其他大多数计算机编程语言,成为
Python
现在网络爬虫和机器学习的主流工具。
教育大数据为教育信息化的发展带来了新的机遇,
传统的数据收集方法已不能满足日新月异的现代化发
展需求,随着网络爬虫和 语言的发展,网络教育
[5]
教育大数据是指学习者学习的行为数据。 也有学者认
[3]
为教育大数据指整个教育活动过程中所产生的以及根
据教育需要采集到的,一切用于教育发展并可创造巨大
[6]
潜在价值的数据集合。 教育,体现的是一种共享的思想,
Python
数据的获取越来越容易,越来越方便,速度越来越快,但
通过各种技术实现教育数据的收集,本研究主要是了解
基金项目:
年度国家档案局科技计划项目ꢁ编号:
ꢀ;许新华湖北名师工作室(
ꢀ; 年度教育部
2ꢀ17-2ꢀ2ꢀ 2ꢀ17
*
2ꢀ16
2ꢀ16-x-51
人文社科项目(编号:
ꢀ;构建高校实习质量管理服务平台研究(编号:鄂教高函〔
〕
2ꢀ16 1
号
)。
2ꢀ15381
17YJA88ꢀꢀ94
The Chinese Journal of ICꢀ in Educꢁtion
79
《中国教育信息化》编辑部:mis@moe. edu. cn
管理信息化
网络教育数据的获取。
三、研究过程
研究目标与假设
达到预期数据需求。
在回收的 份有效问卷中,男性
ꢂ06
人参与问卷,
36
占总人数的
,女性
人,占总人数的
;老
1.
33.96%
70
66.04%
本研究是为了了解计算机、统计学相关专业
师
人,占
,学生
人,占
6ꢃ.ꢃ6%
,还有部分已
Python
爬虫技术掌握情况以及常用的获取教育数据的方式,比
较不同个体之间获取教育大数据的区别,从而探究不同
个体 掌握程度、学习编程年限、主观因素对获取
31
毕业但未从事教育行业的计算机相关专业的人参与了问
卷;其中教育技术学专业为 ,信息工程为
ꢃ9.ꢃ5%
66
,
10.38%
66.98%
计算机科学与技术为
, 其余小部分为其他专业;
Pyꢀhon
教育大数据的影响。
语言虽然得到极大的发展,但全国很多高校
10.6%
其中本科生
人,研究生
人,已参加工作
人。
41
51
14
信效度分析
4.
本文采用
Pyꢀhon
并没有把
语言作为一门课程, 学生对之了解太
进行问卷信度和效度的分析。
SPꢄꢄ19.0
Pyꢀhon
少,技术掌握不够,爬虫技术也不是每一个计算机专业
的人都会掌握。 因此,我们大胆假设:近几年获取教育大
数据的主要途径还是在线搜索,并且学生与老师之间存
在显著差别。
本问卷的
系数为
, 表明此问卷的
0.748
Cronbach alpha
内部一致性良好。 本问卷对结构效度进行了检验,进行
探索性因子分析, 值为 球体检验结
,
KMO
0.7ꢂ7 Bꢅrꢀleꢀꢀ
果显示显著性水平为
,小于 ,满足了统计学
0.000
意义,该问卷结构效度良好。
四、研究结果
获取教育大数据的差异特征
0.00ꢂ
研究问卷的设计
2.
( )设计过程
1
问卷调查为本文的主要研究方法,为保证本研究的
公正、客观,在进行调查问卷设计之前,笔者查阅了相关
文献,之后初步编写了适合本研究的调查问卷,随后请
老师对本问卷进行评价,给出了宝贵的意见,并对问卷
的内容进行适当的修正;之后进行小范围的前测,删除
其中信度和效度较低的题项,最终形成了完整的问卷。
1.
不同的个体获取教育大数据方法各不相同,为探讨
不同性别、年级、职业对教育大数据获取途径的影响,本
文采用描述性统计和独立样本 检验以及单因素方差
T
分析等统计学方法进行统计分析。
通过独立样本 检验可知, 值为
T F
,对应的概
ꢂ.955
( )设计结果
2
率
值(
),大于显著性水平
0.05
,因此,两总体
P
ꢄig.=0.ꢂ65
方差无显著差异,应看第一行的 ꢀ 检验结果,等方差假
设下的 ,,大于 ,因此,两总体均值无显
经过上述步骤,制定了“基于
爬虫的教育大
ꢁyꢀhon
数据获取调查问卷”。 本问卷总体设计为三个维度,分
别为: 基本信息、 爬虫了解程度和技术掌握、获
为
ꢄig
著差异,即,获取教育大数据的途径与性别无关。
年级对教育大数据获取途径的影响用单因素方差
分析,结果显示,显著性水平为 ,大于 ,因此认
0.063
为各个年级获取教育大数据途径无显著差异。
按照上述方法,本研究通过独立样本 检验分析可
0.092
0.05
ꢁyꢀhon
取教育大数据的现状。 共包括
个题项,为了方便统
ꢂ6
计,问卷主要设置为单选题;但为了解
掌握程度
Pyꢀhon
和获取教育大数据途径,本问卷还设计了多选题和一个
主观题。
问卷数据的收集
0.05
ꢀ
知,职业对教育大数据获取途径的影响无显著差异。 结
3.
( )被试分析
1
果显示, 值为 ,明显大于 ,因此认为职业对获取
p
0.9
教育大数据的途径无显著影响。
爬取教育大数据的影响因素
0.05
由于本问卷是基于
和网络爬虫,所以对被试
Pyꢀhon
的专业和编程能力有一定的要求。 参与本问卷的对象皆
来自教育技术学、现代教育技术、通信工程、信息工程、
网络工程、数字媒体技术、计算机科学与技术、计算机应
用、数学与统计等专业,部分非计算机和统计相关专业的
问卷已剔除。 填写问卷的学生或老师来自云南、湖北、湖
南、四川、福建、广东 、浙江等省份,具有一定的代表性。
2.Python
( )面向对象编程经验对
技术掌握的影响
ꢂ
ꢁyꢀhon
每一门编程语言都有它自己独特的特点,本文为探
究不同的编程语言对 技术掌握和用 进行
ꢁyꢀhon
网络爬虫的影响,利用统计学相关分析作为分析方法。
经过分析,面向对象编程经验对 技术掌握在
ꢁyꢀhon
ꢁyꢀhon
( )问卷的发放与回收
ꢃ
水平(双侧)上显著相关,
ꢁearson
相关系数为
,
0 .0ꢂ
0.835
本问卷通过问卷星进行发放与回收, 调研开始于
说明面向对象编程语言的学习对
ꢁyꢀhon
技术掌握有较
年 月
ꢃ017 10 ꢃ5
日,截止于 年 月 日。 共回收
ꢃ017 11 ꢃ
大影响。
( )学习编程年限对 爬取教育大数据的影响
ꢁyꢀhon
问卷 份,其中
1ꢃ0
份为有效问卷,有效率为
,
106
88.3%
2
中国教育信息化/2018.09
80
全部评论(0)