推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于文本数据分析的大数据审计方法研究

更新时间:2020-01-01 15:38:45 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:文本数据分析大数据 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

研究如何对文本数据进行分析对开展大数据审计具有重要的应用价值。本文首先分析了常用审计方法的不足,进而根据目前开展大数据审计的需要提出了基于文本数据分析的大数据审计方法,并分析了其原理;在此基础上,采用Python语言实现了相似度分析和标签云分析两种可行的文本数据审计方法;最后,结合具体案例,分析了基于文本数据分析的大数据审计方法的应用。研究结果为开展大数据审计提供了技术方法和研究方向。


部分文件列表

文件名 大小
基于文本数据分析的大数据审计方法研究.pdf 1M

部分页面预览

(完整内容请下载后查看)
审 计 与 鉴 证  
基于文本数据分析的大数据审计方法研究  
陈伟 勾东升 徐发亮  
摘要  
研究如何对文本数据进行分析对开展大数据审计具有重要的应用价值文首先分析了常用审计方法的不,进  
而根据目前开展大数据审计的需要提出了基于文本数据分析的大数据审计方分析了其原此基础,  
采用Python语言实现了相似度分析和标签云分析两种可行的文本数据审计方合具体案析了基  
于文本数据分析的大数据审计方法的应用究结果为开展大数据审计提供了技术方法和研究方向。  
关键词 大数据审计 文本数据分析 自然语言处理 Python  
则不能进行有效的分析。以统计分析 法:对于数值型字段,可以采用计算  
一、引 言  
近年来,大数据技术的研究与发  
方法和数据相似检测分析为例,其特 数字的相对差异算法:  
点分析如下:  
展为审计工作带来了机遇和挑战,  
目前国内外高度关注大数据技术在审  
计工作中的应用,探索在审计实践中  
运用大数据技术具有重要的应用价值  
和理论意义。由于目前被审计单位信  
息化程度高,信息系统复杂,需要采  
集和审计的各类数据较多,且不仅仅  
是数据库中的电子数据,还包括一些  
政策文件、项目信息、董事会会议记  
录、董事会会议决议、总经理办公会  
记录、会议决议单、办公会通知、办  
公文件,以及内部控制手册、信息系  
统使用手册等非结构化材料。因此,  
如何对文本格式的非结构化数据进行  
分析是开展大数据审计的一项重要内  
容。本文结合目前大数据审计的研究  
与应用现状,探索基于文本数据分析  
的大数据审计方法。  
1.统计分析方法  
常用的统计分析方法的应用示例  
其中,  
为数值型字段。  
如图1所示,这种统计分析方法多是  
(3)字符型字段相似度计算方  
针对数值型字段进行分析,而不能针 法:对于字符型字段,一个字段可以  
对字符型字段中的文本数据进行统计 看成是一个字符串,字符串的相似检  
分析。  
2.结构化数据的相似检测方法  
测最主要的方法是基于编辑距离算  
法。通过采用编辑距离算法,可以计  
对于数据库中的结构化数据,通 算出两个字段间的编辑距离,进而计  
过数据相似检测,可以判断两个数据 算出字符型字段的相似度(图1)。  
表中的两条数据是不是相似重复数  
综上可知,目前常用的审计数据  
据,目前在审计中已有相关应用,例 分析方法多是针对结构化数据。大数  
如,大数据环境下从不同地方采集来 据环境下,需要审计的不仅仅是数据  
的被审计数据中,被审计数据A中出 库中的结构化数据,还包括一些政策  
现的数据不应该出现在被审计数据B 文件、项目信息等非结构化数据。因  
中。通过数据相似检测技术可以有效 此,常用的审计方法不能满足大数据  
地发现舞弊案件。其中,两个数据表 环境下审计工作的需要,其中,研究  
中对应字段的相似度计算是关键,对 如何对文本数据进行审计非常重要。  
于不同类型的字段,一般采用如下不  
同的计算方法:  
三、基于文本数据分析的大数据审计  
二、常用审计方法的不足  
(1)布尔型字段相似度计算方 方法  
常用的审计数据分析方法包括账  
表分析、数据查询、审计抽样、统计  
分析、数值分析、数据相似检测等,  
这些方法多是针对结构化数据进行分  
析,而对于文本数据等非结构化数据  
法:对于布尔型字段,如果两字段相  
(一)基于文本数据分析的大数  
等,则相似度取0,如果不同,则相似 据审计方法原理  
度取1。 大数据环境下大量的文本数据使  
(2)数值型字段相似度计算方 审计人员分析的难度越来越大,传统  
80  
AUDITING & ASSURANCE  
的浏览和筛选等方法无法满足大数据  
环境下文本数据等非结构化数据审计  
的需要,对非结构化数据进行可视化  
分析,是大数据审计研究与应用的重  
要内容。将文本数据中的内容或规律  
以视觉符号的形式展示给审计人员,  
有助于审计人员利用视觉感知的优势  
来快速获取大数据中蕴涵的重要信  
息,从而发现审计线索。对大数据审  
计来说,文本内容可视化主要是为  
了快速获取文本数据内容的重点,  
快速理解文本的主要内容,可以采用  
基于词频的可视化技术,如采用TF-  
IDF技术、标签云的可视化形式进行  
展示。  
图 1 统计分析方法的应用示例  
基于文本数据分析的大数据审计  
方法原理可概述为:根据对被审计单  
位的调查,在访谈和现场观察等基础  
上,采集被审计单位的内外部相关  
信息如政策文件、项目信息、董事会  
会议记录、董事会会议决议、总经理  
办公会记录、会议决议单、办公会通  
知、办公文件、项目安排、相关年度  
资金计划安排、项目工作总结、相关  
项目绩效评价报告等非结构化数据,  
以及从外部网上公开数据源采集来的  
相关文本数据;然后,在审计大数据  
预处理的基础上,基于“总体分析、  
发现疑点、分散核查、系统研究”的  
审计思路,采用大数据工具对相关文  
本数据进行分析,审计人员通过对可  
视化的分析结果进行观察,快速从被  
审计大数据信息中发现异常数据,获  
得审计线索;在此基础上,通过对这  
些结果数据做进一步的延伸审计和审  
计事实确认,最终获得审计证据。综  
上分析,基于文本数据分析的大数据  
审计方法原理如图2所示。  
图 2 基于文本数据分析的大数据审计方法原理  
要 分 析 文 本 数 据 之 间 是 否 相 似 , 语言处理(NLP,Natural Language  
成 熟 可 行 的 方 法 可 以 采 用 T F - Processing)方法,TF-IDF的主要  
IDF(Term Frequency-Inverse 思想是:根据字词的在文本中出现的  
Document Frequency,词频-逆文 频率和在整个文本库中出现的频率来  
档频率)技术,它是一种常用的自然 计算一个字词在整个文本库中的重要  
(二)相似度分析  
1.相似度分析方法的原理  
大数据环境下,相似度分析是  
目 前 有 效 的 一 种 文 本 数 据 审 计 方  
法 。 大 数 据 审 计 环 境 下 , 有 时 需  
81  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载