推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的涉台大数据获取与 处理

更新时间:2019-12-21 10:43:28 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:数据抓取PYTHON 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

当前涉台宣传、言论及经济信息发布与共享等,地方事务人员难以完全掌握国家权威部门或其它省市部门对类似问题的法律法规、指示发言等。本文主要研究当前互联网环境下,使用大数据技术对涉台相关事宜进行抓取分析,辅助相关部门和人员有理有据有节的处理相关涉台事件。本文基于Python实现了涉台信息的数据获取、网站信息挖掘、自然语言分词、文本聚类、词云辅助显示等功能,为提高涉台工作的规范性与进一步研究提供基础。


部分文件列表

文件名 大小
基于Python的涉台大数据获取与_处理.pdf 2M

【关注B站账户领20积分】

部分页面预览

(完整内容请下载后查看)
Computer Science and Application 计算机科学与应用, 2019, 9(1), 63-69  
Published Online January 2019 in Hans.
Data Acquisition and Processing of  
Taiwan-Related Information Based on  
Python  
Bin Yang1, Wenhui Li2  
1School of Mathematical Science, Huaiyin Normal University, Huaian Jiangsu  
2School of Urban and Environmental Sciences, Huaiyin Normal University, Huaian Jiangsu  
Received: Dec. 30th, 2018; accepted: Jan. 10th, 2019; published: Jan. 17th, 2019  
Abstract  
At present, it is difficult for local affairs personnel to fully grasp the laws, regulations, instructions  
and speeches of the state authorities or other provincial and municipal departments on similar  
issues, such as Taiwan-related propaganda, publication and sharing of economic information on  
speech discipline. This paper mainly studies using big data technology to grasp and analyze Tai-  
wan-related issues, assisting relevant departments and personnel to deal with relevant Tai-  
wan-related incidents with reasonable and knowledgeable. This paper realizes the functions of  
data acquisition, website information mining, natural language word segmentation, text clustering  
and word cloud assistant display, which provides a basis for improving the standardization and  
further research of Taiwan-related work based on Python.  
Keywords  
Data Grabbing, Word Segmentation, Text Clustering, Python  
基于Python的涉台大数据获取与  
处理  
1,李文慧2  
1淮阴师范学院,数学科学学院,江苏 淮安  
2淮阴师范学院,城市与环境学院,江苏 淮安  
收稿日期:20181230日;录用日期:2019110日;发布日期:2019117日  
文章引用: 杨斌, 李文慧. 基于 Python 的涉台大数据获取与处理[J]. 计算机科学与应用, 2019, 9(1): 63-69.  
DOI: 10.12677/csa.2019.91008  
杨斌,李文慧  
摘 要  
当前涉台宣传、言论及经济信息发布与共享等,地方事务人员难以完全掌握国家权威部门或其它省市部  
门对类似问题的法律法规、指示发言等。本文主要研究当前互联网环境下,使用大数据技术对涉台相关  
事宜进行抓取分析助相关部门和人员有理有据有节的处理相关涉台事件文基于Python实现了涉  
台信息的数据获取、网站信息挖掘、自然语言分词、文本聚类、词云辅助显示等功能,为提高涉台工作  
的规范性与进一步研究提供基础。  
关键词  
数据抓取,分词,文本聚类,Python  
Copyright © 2019 by authors and Hans Publishers Inc.  
This work is licensed under the Creative Commons Attribution International License (CC BY).  
Open Access  
1. 引言  
台湾问题有着相当特殊而复杂的历史背景,可以说是海内外中国人民的“历史共业”。为促进“一  
国两制”的基本国策尽快实行、早日实现大陆和台湾的统一,需对台湾海峡两岸的同胞开展宣传活动。  
对台宣传分为对内宣传和对台湾宣传两个方面。对内宣传是对大陆的干部群众进行对台方针、政策(“一  
国两制”)的教育,介绍台湾状况和两岸关系发展的情况,动员全社会都来关心、支持、促进祖国的统一  
大业早日实现台湾宣传的形式分为两类是对到大陆探亲访商的同胞进行面对面的宣传;  
二是通过新闻媒介向对岸宣传。宣传的内容包括介绍大陆对台湾的政策,如“一国两制”,介绍 40 年来  
大陆发生的变化和取得的成就、风土人情、名胜古迹等台湾民众关心、感兴趣的情况。对台宣传政策性  
很强,需严格把握宣传用语[1] [2]。  
我国目前针对涉台宣传等制定了一系列的法律法规关于正确使用涉台宣传用语的意见(系列)、  
《中华人民共和国台湾同胞投资保护法》、《台湾海峡两岸间航运管理办法》、《中国专利局关于指定  
首批专利代理机构代理台湾法人来大陆申请专利的通知》、《劳动部关于颁发“台湾和香港、澳门居民  
在内地就业管理规定”的通知》、《关于台湾记者来祖国大陆采访的规定》等涉及经济、交流、人员往  
来、日常事务等方方面面数十个相关法律法规;同时,国家及各级政府自己的规章制度、解释办法与发  
言,让具体事务人员难以完全掌握,容易发生一定的谬误,在这信息大爆炸时代很容易导致影响巨大、  
难以挽回的影响[3] [4]。  
Python 是一种解释型脚本语言20 世纪 90 年代初 Python 语言诞生至今已被逐渐广泛应用  
于系统管理任务的处理和 Web 编程。从 2004 年以后,python 的使用率呈线性增长。2011 1 月,它被  
TIOBE 编程语言排行榜评为 2010 年度语言2018 9 月编程语言排名中仅次于 Java C 语言列  
第三。  
Python语言的简洁性读性以及可扩展性国外Python做科学计算的研究机构日益增多,  
一些知名大学已经采用 Python 来教授程序设计课程多开源的科学计算软件包都提供了 Python 的调用  
接口用的科学计算扩展库如 NumPySciPy matplotlib别为 Python 提供快速数组处理、数值运  
DOI: 10.12677/csa.2019.91008  
64  
计算机科学与应用  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载