推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的大数据审计方法探讨

更新时间:2019-12-24 09:45:39 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python大数据 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

随着大数据技术的发展,各行业的信息化程度大大提高,审计工作涉及行业广,这就要求审计工作必须发展大数据技术。近年来相关文件也做出了指示,如《国务院关于加强审计工作的意见》在2014年10月提出要在审计实践中运用信息化技术审查问题的能力,探索大数据技术的运用。国务院2015年8月颁布的《关于促进大数据发展行动纲要》中的国家大数据战略,促进我国大数据发展。同年12月,构建大数据审计工作模式的要


部分文件列表

文件名 大小
基于Python的大数据审计方法探讨.pdf 2M

部分页面预览

(完整内容请下载后查看)
研究与探讨  
基于Python的大数据审计方法探讨  
□ 南京 孙梦蝶  
随着大数据技术的发展,各行业 的同时又带来了挑战。  
经济社会运行风险的能力和效率大大  
提高,以揭露重大违法违纪问题,最  
终实现审计全覆盖、维护国家经济安  
全的目的。大数据审计的应用,十分  
符合推行现代审计综合模式的要求,  
符合数字化审计方式的特征。  
的信息化程度大大提高,审计工作涉  
及行业广,这就要求审计工作必须发  
展大数据技术。近年来相关文件也做  
出了指示,如《国务院关于加强审计  
工作的意见》在2014年10月提出要在  
审计实践中运用信息化技术审查问题  
的能力,探索大数据技术的运用。国  
务院2015年8月颁布的 《关于促进大  
数据发展行动纲要》中的国家大数据  
战略,促进我国大数据发展。同年  
12月,构建大数据审计工作模式的要  
求在《关于完善审计制度若干重大问  
题的框架意见》文件中被明确。刘家  
义提出:“推进以大数据审计是实现  
审计全覆盖的必由之路。”  
从数据层次来看,审计大数据涉  
及广泛的数据来源,结构化数据是当  
前被审计数据的主要类型,但半结构  
化数据、非结构化数据越来越多。数  
据类型的多样化与以往便于存储、分  
析的结构化数据相比,对大数据的处  
理能力提出了更难的挑战。被审计单  
位的财务数据和业务数据,数据不仅  
产生于组织内部运作的各个环节,也  
来自于组织外部。这些数据的价值对  
二、Python的特点及其优势  
Python一种面向对象的计算  
机程序设计语言,它具有简单、解释  
型、交互式和可移植的特点,在数据  
分析领域正在得到越来越多的应用  
审计工作来说也是不可否认的。因 ( 官 网 : 。  
此,被审计数据作为各种数据集合, 随 着 其 数 据 科 学 计 算 库 的 升 级 ,  
自然具有体量大、多样化、价值高等 Python程序设计语言越来越适用于分  
大数据特征。  
析数据科学。Python是一门真正的通  
从技术层次来看,大数据审计技 用设计语言, Python编程语言的通用  
在此情况和背景下,如何获取、  
存储和使用大数据技术进行数据分析  
是审计部门和审计机构面临的重大挑  
战。在审计研究领域,许多机构和学  
者对大数据对审计的影响进行了阐  
述。大数据环境下开展审计工作已引  
起了广泛关注。因此,对大数据审计  
的展望也十分有研究价值,本文将重  
点分析Python语言在大数据环境下实  
施审计的可行性,为审计人员在大数  
据环境下实施审计,获取数据和进  
行数据分析挖掘数据价值提供理论  
参考。  
性,脚本语言应用的广范性,有众多  
组件、扩展库的支持,并且适用于多  
种平台的操作系统,从这些方面来看  
Python都优于科学计算领域最流行的  
商业软件Matlab。虽然目前Matlab中  
的某些高级数据分析功能Python还无  
法替代,但是对于基础性、前瞻性的  
审 计 数 据 处 理 工 作 , 完 全 可 以 用  
Python来完成。  
术是一系列具体的技术和方法,用于  
挖掘和呈现审计大数据,收集、存  
储、分类和分析挖掘以及可视化来实  
现数据的价值,审计的多样化使得审  
计数据更加复杂,不难想象与大数据  
应用在单一行业相比,审计数据获  
取,分配和存储技术面临的挑战。  
从应用层次来看,大数据审计在  
应用中的实践主要体现在深度挖掘审  
计证据,跨部门、多行业开展数据分  
大数据审计需要用到的Python主  
析,关联分析财务与业务数据、挖掘 要 包 括 : Numpy, Scripy, Pandas,  
过去数据与实时数据的相关性,以发 Matplotlib等。Numpy是一个科学计算  
现审计问题、得出合理的审计结论。  
大数据技术可以助推实现审计全 Scripy工 具 包 包 括 统 计 , 优 化 , 整  
的 库 , 提 供 了 矩 阵 运 算 等 功 能 ;  
一、大数据审计特征  
维基百科把“无法在一定时间内  
用常规软件工具对其内容进行抓取、  
管理和处理的数据集合”称为大数  
据。大数据环境下非格式化数据比例  
非常大,如何审计非格式化数据,发  
现审计线索,是值得研究的。大数据  
4V的特点给电子数据审计带来机遇  
覆盖。并且大数据审计可以推进制度  
完善,即通过挖掘某种社会现象的潜  
在规律,作为政策制定的依据,针对  
问题进行大数据分析、不断完善政  
策,推动国家治理现代化。同时,有  
部分政府审计领域的学者认为大数据  
审计的目标之一使政府审计揭示宏观  
合,线性代数模块,常微方程求解器  
等,可以和Numpy数组一起工作,并  
提供许多像数值积分、优化这样的对  
用 户 友 好 的 和 有 效 的 数 值 例 程 ;  
Pandas是Python的一个数据分析包,  
最初作为金融数据分析工具被开发出  
来。因此,提供了能使审计人员便捷  
38  
研究与探讨  
3.Jieba和 PyTagCloud实 现 中 文  
标签云。JiebaPython的 一 个 中 文  
分 词 组 件 , 支 持 多 种 分 词 模 式 。  
PyTagCloud是Python的一个扩展库,  
可以生成一个标签云,当前它可以输  
出 图 片 和 网 页 两 种 格 式 。 通 过  
Jieba组件对被审计的文档分词,去  
除 标 点 符 号 、 “ 的 ” 、 “ 地 ” 、  
“了”等停用词,通过设置参数提取  
文 档 内 权 重 大 、 词 频 高 的 词 语 。  
Jieba分词的结果结合PyTagCloud的标  
签云可视化功能,可以实现对审计文  
件进行充分的理解。在被审计单位提  
供审计数据,或已通过爬虫技术获取  
的数据的基础上,可使用标签云技术  
实现可视化分析。  
处理数据的函数和方法。  
是具有其特征的数据集,更是一项技  
术的集——能够采集、存储和关联性  
分析数量巨大、来源分散、格式多样  
的数据,更是一种大数据思维,审计  
人员利用这种创新的思维模式,得以  
从审计数据中发现疑点,从而提升审  
计人员发现数据价值、获取知识和更  
新认知领域的能力。在大数据审计模  
式下,审计人员不仅要对大数据技术  
充分利用,而更应该具有系统化大数  
据的思维。  
Pandas建立在Numpy之上,使以  
Numpy为中心的应用变得简单,并且  
非 常 适 合 进 行 数 据 清 洗 和 整 理 。  
Matplotlib是 Python的 一 个 可 视 化 模  
块,审计人员可以利用该模块更方便  
的制作线条图、柱状图等专业图形。  
Python有着像Matlab一样强大的计算  
工具包Numpy,有Matplotlib绘图工具  
包能够对数据进行可视化,有科学计  
算 工 具 包 Scripy, Pandas可 以 像  
SQL对数据进行控制,对于大数据环  
境 下 的 电 子 数 据 审 计 而 言 , 使 用  
Python可以实现数据获取、分析和可  
视化,非常有发展潜力。  
为有效解决当前现象,可采取以  
下措施实现对大数据审计发展的推  
动:首先,构建审计大数据信息资源  
平台,通过建设大数据信息资源平  
台,实现资源共享和关联分析各被审  
计单位、行业、地方等多个系统间的  
数据。其次,创新数据分析方法,审  
计人员从简单的汇总、统计数据,向  
运用各种深度挖掘、智能学习算法、  
可视化等技术实现的大数据分析。审  
计人员可以通过学习Python等技术,  
将丰富的审计工作经验与前沿分析技  
术相结合,在审计过程中实现大数据  
技术的应用,以进一步提高审计能力  
和效率。再其次,完善审计制度体  
系,在审计数据的标准方面,设定统  
一标准,规范数据、统一接口,制定  
大数据审计工作规范,建立健全符合  
我国国情且系统化的准则体系。  
1.Python数 据 获 取 研 究 。 使 用  
Python内置函数读取文本和数字,打  
开 审 计 文 件 读 取 文 件 内 容 , 获 取  
word、excel文件指定行的内容,以实现  
从键盘、文本文件、Office 文件获取。  
Python的标准数据库接口支持多  
种数据库。接口定义了必须的对象和  
数据库存取方式,以便为各种底层数  
据库和数据库接口提供一致的访问接  
口,审计人员可以根据适合审计项目  
的数据库下载不同的模块,联接数据  
库后,可以通过执行SQL语句等方式  
完成查找和存储。  
4.使用gensim进行文本相似度计  
算。文本相似度计算的需求始于搜索  
引擎,它需要计算用户查询和爬下来  
的众多网页之间的相似度,从而把最  
相似的排在最前返回给用户。使用的  
主 要 算 法 tf-idf( 词 -逆 文 档 频  
率)。文本相似度计算主要的步骤  
有,首先导入jieba和gensim库,使用  
jieba对文章进行分词,然后建立TF-  
IDF模 型 , 通 过 模 型 计 算 文 本 与  
query文本的相似度即可。  
三、总结  
本文研究了在大数据审计方法方  
面Python语言的数据获取方式,包括  
从文件获取、从数据库获取,介绍了  
利用网络爬虫技术抓取网页信息,获  
取外部数据以满足数据分析的需求方  
式;然后介绍了几个实用的Python模  
块,Matplotlib图工具包、Jieba分  
词组件等,以实现审计工作的基本绘  
图、中文标签云和相似度分析功能。  
值得思考的是,在“4V”定  
义下,政府掌握的数据资源不太符合  
“价值密度低”的界定,并且审计工  
作中接触到的非结构化数据还是很  
少,看起来不应归为“大数据”,审  
计人员通过使用基本的数据处理技术  
就能够对政府数据进行分析处理。但  
从另一个角度看,大数据不仅代表的  
随着大数据时代的到来,大量的  
信息从网络中涌出,爬虫像蜘蛛一样  
在网络中穿梭,自动收集有价值的信  
息,使用简单的Python脚本就能够抓  
取网页信息,满足数据分析的需求。  
爬虫前期可以使用Google Chrome的  
检查功能,查看网页的URL、请求方  
式、状态码和网站地址代理名称等特定  
信息,了解网页的构成,以便于进一  
步通过编写Python脚本,实现爬虫。  
2 . Matplotlib绘 图 工 具 包 。  
Matplotlib是Python一个可视化模块,  
一个 2D绘图库。审计人员写几行代  
码,便可以完成直方图、条形图、散  
点图等基础绘图,根据图像的趋势判  
断数据的合理性,以进一步做出正确  
的审计结论。  
(作者单位:南京审计大学)  
39  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载