推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python关于世界自杀率影响因素的分析以及机器学习预测

更新时间:2019-12-24 07:29:28 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python数据分析机器学习 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

本论文主要通过根据世界卫生组织2018年公布的全球自杀数据与联合国公布的HDI指数,结合世界银行统计的1985-2016年的世界主要国家GDP水平数据建立的数据集为研究与探索数据。利用Python Pandas科学分析库,对影响世界不同国家自杀率的因素进行数据与相关性分析。最后利用机器学习算法训练数据集,获得关于自杀率的预测模型,用于评估与测测国家与地区的自杀风险,从而指导相关政府与机构进行自杀预防工作。


部分文件列表

文件名 大小
基于Python关于世界自杀率影响因素的分析以及机器学习预测.pdf 2M

部分页面预览

(完整内容请下载后查看)
数据库技术  
Data Base Technique  
基于 Python 关于世界自杀率影响因素的分析以及机器学习预测  
文/刘子桦 马若炎  
供的数据显示,2012 年,自杀死亡占全世界  
死亡总数1.4%2012 年的死因排序中居  
15 位。  
r 亦可由(Xi,Y)样本点的标准分数均值  
i
估计,得到与上式等价的表达式:  
本论文主要通过根据世界卫  
生组2018公布的全球自杀数  
据与联合国公布HDI结  
合世界银行统计1985-2016年  
的世界主要国GDP平数据建  
立的数据集为研究与探索数据。  
Python Pandas学分析库,  
对影响世界不同国家自杀率的因  
素进行数据与相关性分析。最后  
利用机器学习算法训练数据集,  
获得关于自杀率的预测模型,用  
于评估与测测国家与地区的自杀  
风险,从而指导相关政府与机构  
进行自杀预防工作。  
本文利1985-2016 年世101 个国家的  
自杀人数以及宏观参数的数据集,考虑时间  
(年),人口,HDI 指数,GDP 指数以及其  
衍生变量对自杀率的影响,并且对数据进行相  
关性分析,探究单个因素与总自杀率的线性相  
关性。最后利用多元线性回归与随机森林进行  
预测模型的生成。  
σ
、 及 分别是Xi 样本的标  
x
其中  
准分数、样本平均值和样本标准差。  
2.2 单一变量相关性分析  
2.2.1 自杀率与人口增长速度以及年龄分布之  
间的关系  
2 相关性分析  
101 个不同国家人口的增长速度为  
自变量,自杀率为因变量。由计算可知,在  
全球的范围内,自杀率与人口增加率之间成  
线性关系的拟合系数0.0185Kendall 与  
Spearmans Pearsonr 相关系数的值分别为  
0.131,0.217,0.135明二者整体上成正相关,  
即人口增长速率增加会导致自杀率的增加,但  
是这种相关关系十分微弱。  
2.1 相关分析的工具与实现方法  
本论文主要采用皮尔森相关系数逐个分  
析单一变量对最后因变量(自杀率)之间的相  
关程度。相关计算方式如下:估算样本的协方  
差和标准差,可得到样本皮尔逊系数,常用英  
文小写字r 代表:  
【关键词】自杀率 相关性分析 探索性数据分  
析 机器学习  
在探究年龄分布情况时,选取年龄分布  
为自变量,自杀率为因变量。为了能够更好的  
表示一个国家的年龄分布5-1415-24岁,  
1 引言  
自杀是一种全球性的现象。根WHO 提  
<< 上接 149 页  
Microsoft .NET 术的浏览器或者是服务器  
的模式运行,用户只要通过浏览器或者服务  
器便可以实现科研项目数据的管理以及相关  
维护;科研项目管理系统前web 页面采用  
Microsoft Visual Studio 2010 开发环境进行设计  
和制作;科研项目管理系统后台的科研以及成  
果数据库采Microsoft SQL Server 2008 进行  
数据库设计和对数据的存储。科研项目管理系  
统通过数据挖掘技术对相关数据进行一定的整  
理和分析,最后制定出数据分析报告。  
我们可以通过上述数据挖掘的算法,实  
现对科研数据关联性的分析以及数据的深度挖  
掘,并且,也可以对高校科研管理工作提供一  
定程度上的决策支持。  
开发科研项目管理系统。  
参考文献  
[1] 哲军 . 大数据环境下的高校科研  
管理信息化探索 [J]. 术与创新管  
,2014,2(35):112-114.  
5.4 科研项目数据的标准化  
[2], . 校科研管理中的  
数据挖掘技术及应用 [J]. 技和产  
,2007(06):38-40+45.  
随着时代的进步,社会人才的增多,科研  
项目也飞速发展,但是,在快速发展的同时所  
需要的数据以及产生的数据必然会逐渐增多,  
因此,我们需要对科研项目的数据做好标准化  
的处理以及相关重要参数的制定。例如,科研  
项目的项目名称、设立时间、开始和结束的时  
需要的经费以及项目主要的关键词等等。  
对数据进行了标准化,对以后科研项目管理收  
集数据、对比数据、整理数据、分析数据甚至  
是对数据的挖掘技术都是具有很大帮助的。  
[3].研管理信息系统的数据挖掘应用  
[J].州学院学,2014,2(20):152-  
153.  
5.3 数据挖掘技术运用的算法  
[4].据挖掘在高校教务及科研管理  
中的应[J].技管理研,2009,4:109-  
110.  
科研项目管理系统采用的数据挖掘算法  
主要分为两种:  
5.3.1 Apriori 算法  
Apriori 算法是目前为止在数据挖掘技术  
中最具有影响力的挖掘布尔关联规则的算法,  
该关联规则在分类上属于单维、单层、布尔关  
联规则。  
作者简介  
闫靖昆(1999-),男,大学本科学历。研究  
6 总结  
方向为数据挖掘、软件设计与开发。  
本文通过了解什么是数据挖掘技术,以  
及常用的数据挖掘的方法有哪些,随后对科研  
项目管理、项目管理系统的应用环境和主要功  
能进行简单的介绍,最后得出要改善科研项目  
管理系统的功能,将其数据进行标准化,以及  
需要运用大量技术的配合,才能更好地研究和  
5.3.2 C4.5 算法  
它是机器学习算法中的一种分类决策树  
算法机器学习中策树是一个预测模型,  
它代表的是对象属性与对象值之间的一种映射  
关系。  
作者单位  
石河子大学信息科学与技术学院 新疆维吾尔  
自治区石河子市 832003  
电子技术与软件工程    
Electronic Technology & Software Engineering  
150 •  
Data Base Technique  
数据库技术  
1ꢀ随机森林与多元线性回归比较  
25-34 岁,35-54 岁,55-74 岁,74 岁以上等不  
同年龄段分别赋1-6 的加权分数并且进行加  
权平均获得一个总分。利Sklearn 1985-  
2015 年之间全球的年龄组成与自杀率之间的  
进行线性拟合。根据相关性分析可知,在全球  
的范围内,自杀率与年龄组成之间成弱中等  
线性关拟合系R^2 0.0928Kendall  
Spearmans Pearsonr 相关系数的值分别  
-0.242-0.206-0.305。说明二者整体上成  
负相关,即年龄组成增加(老龄化)会导致自  
杀率的减少。  
Pearsonr 关系数的值分别0.161,  
0.224,0.145,说明二者整体上成正相关,但是  
这种关系很弱,几乎可以视为不相关。  
上的误差较为理想,达到0.098,是比较好  
的预测模型。如1 所示。  
4 结束语  
3 多元线性拟合与决策树及随机森林预  
测模型构建  
本文通过开放数据利用 Python  
Pandas scikit-learn 进行数据探索与分析,  
探究了国家宏观因素与自杀率之间的相关系  
数。并且建立多元回归模型、随机森林预测模  
型,其中随机森林预测的残差仅0.0980,起  
到了很好的自杀率预测效果。  
3.1 多元线性拟合  
对于多元线性回归,我们应该考虑每个  
特征xj 与其权w 乘积之和:  
所以我们的线性模型为:  
2.2.2 自杀率与性别组成之间的关系以及国家  
人类发展指数(HDI)之间的关系  
参考文献  
并且使用梯度下降算法,不断缩小损失  
函数:  
[1]Tom M.Mitchell.MachineLearning[M].  
China Machine Press:China,2005:38.  
[2]World Health Organzation.National  
suicide prevention strategies:  
progress, examples and indicators[R].  
Switzerland:WHO,2018.  
选取男女性别比例为自变自杀  
率为因变由线性拟合可在全球的  
范围自杀率与年龄组成之间成强线  
性关拟合系数为 0.55261Kendall 与  
Spearmans Pearsonr 相关系数的值分别为  
0.540,0.742,0.743。说明二者整体上成强正相  
关关系,即性别比例的增大会大概率导致自杀  
率的增大。十分具有参考性,对人口政策具有  
指导意义。  
计算L(f) 最小时候w b :  
在具体实施中,选取在本文中提到的人  
口增长率、性别比例、年龄组成、以及人均  
GDP 四个相对独立的因素行归一化操作,  
然后合并作为特征向量构成因变量,目标变量  
为自杀率,生4 维向量进行多元线性回归。  
整个数据被分90% 的训练集以10% 的测  
试集。得到的多元线性回归拟合的拟合方程如  
下:  
[3],,.于皮尔逊相关  
系数的网络舆情评估指标体系构建研究  
[J].报探,2018,10:2-6.  
[4] 尹 儒 门 , 昌 骞 , 王 文 剑 . 一 种 模 型  
决策森林算法 [J]. 算机科学与探  
,2019,8:1.  
HDI 指数是联合1990 开发计划署创立  
了人类发展指数,以“预期寿命、教育水平和  
生活质量”三项基础变量,按照一定的计算方  
法,衡量各个国家人类发展水平。本文选取不  
同国HDI 指数为自变量杀率为因变量。  
根据计算显示,在全球的范围内,自杀率与年  
龄组成之间成弱线性关系合系数0.578。  
Kendall Spearmans Pearsonr 关系数  
的值分别0.2150.3330.241。说明二者整  
体上成正相关,即性别比例的增大会导致自杀  
率的增大,但是这种相关关系较弱。  
[5].国自杀率随社会经济状况变  
化的模式研[D]. 连医科大  
,2017.  
[6].元线性回归中多重共线性的研  
[J].业与科技论,2019,03:1.  
利用此方程对训练集数据与测试集数据  
进行线性拟合,结果显示训练集上均方差为  
0.678,测试集0.596。  
作者简介  
刘子1996-南理工大学计学院,  
3.2 利用随机森林进行预测  
本科。  
随机森林是利用多棵树对样本进行训练  
并预测的一种分类器。在本文中,使50 个  
决策树(Decison Tree)进行概率分类,进行  
投票程序,最终得到了误差更小,使用度更高  
的机器学习预测模型。利用随机森林生成的预  
测模型在训练集上的误差0.606,在测试集  
2.2.3 自杀率与人GDP 之间的关系  
马若1998-南理工大学计学院,  
本科。  
选取不同国家人GDP 为自变量,自杀  
率为因变量。由计算得知,在全球的范围内,  
自杀率与人GDP 之间成相关关系的概率很  
拟合函数0.021Kendall Spearmans  
作者单位  
华南理工大学 广东省广州市 510006  
电子技术与软件工程  
Electronic Technology & Software Engineering  
• 151  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载