推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的科技情报智能化识别检索系统的研究与设计

更新时间:2019-12-24 05:45:50 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python网络爬虫 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

科技情报不仅能提供科研人员开展科技研发工作的基本资源,更为科研工作者的研究方向与研究内容提供了决策支持。因此,如何为科技工作者提供多渠道、及时准确的科技情报成为科研院校及企业科技部门亟需面对的问题。本文提出了一个利用Python编程语言定时对动态网页中与本行业相关的科技情报进行数据抓取方法,将获取的有用信息保存到本地数据库中,再使用B/S架构的信息系统为科研人员提供查询及订阅功能。该系统具备较高的实时性及准确性,并已经在企业科技部门中进行使用。


部分文件列表

文件名 大小
基于Python的科技情报智能化识别检索系统的研究与设计.pdf 2M

部分页面预览

(完整内容请下载后查看)
Science & Technology Vision  
科技视界  
科技创新  
项目  
基于 Python 的科技情报识别检索  
系统的研究与设计  
贺 洪 煜  
上 海 建 工 集 团 股 份 有 限 公 司 中 国 上 海  
ꢀ00080  
科 技 提 供 科 研 人 科 技 研 工 作 为 科 研 工 作 的 研 究 方 向 与 研  
,  
提 供 了 支 持 为 科 技 工 作 提 供 准 确 的 科 技 成 为 科 研 院 业 科 技  
。 , 、  
问 题 本 文 提 出 了 一 个 利 用  
定 时 与 本 关 的 科 技 进 行  
Python  
将 获 用 信 息 本 地 数 使 用  
的 信 息 为 科 研 人 提 供 查 询 及  
B / S  
时 性 准 确 在 企 业 科 技 中 进 行 使 用  
关 键 大 数 科 技 报  
;  
虫  
ꢀython  
中 图 分 类 号  
文 献 标 识 码  
文 章 编 号  
( ꢁ  
ꢀ095 - ꢀ457 ꢀ019 11ꢁ007ꢀꢁ003  
G351 . 1  
A
DOI 10 ꢂ 19694 / j ꢃ cnki ꢂ issnꢀ095 ꢁ ꢀ457 ꢂ ꢀ019 ꢂ 11 ꢂ 033  
Research ꢀnd Design of of Intelligent ꢁecognition System for Scientific ꢀnd Technologicꢀl  
Informꢀtion Bꢀsed on Python  
HE Hong - yu  
( Shꢀnghꢀi Construction Group , ꢂhꢀnghꢀi 200080 ꢃ Chinꢀ )  
Abstrꢀct Scientific and technological information can not only provide the basic resources for researcher workers ,  
but also provide decision support for the research direction and content of scientific research workers . Therefore , how to  
provide multi - channel , timely and accurate scientific and technological information for science and technology researcher  
workers has become an urgent problem for research institutes and enterprises . This paper proposes a method for data  
capture of scientific and technological information related to the industry in dynamic web pages using Python  
programming language . This system saves the useful information to  
architecture provides scientific research workers searching and subscription features . The system is highly time - sensitive  
and accurate and has been used in the corporate technology sector .  
a local database , and then the system of B / S  
Key words Big data ; Scientific and technological information ; Python ; Web crawler  
年 来  
域 的 企 业 极 地 对 大 数 据 构 用 中 其 的 性 定 性 迎  
挖 掘 利 用 随 着 概  
。 、  
+
美 国 司  
技 情  
) 、  
RAND  
及  
数 据 报 研 究 所  
技 术 研 究 所  
) 、  
NISTEP  
CISTI  
万 亿 节  
致 使 这 些 巨 量 的 数 据 无 法 家 国 报 机 现  
2 . 5  
数 据  
典 型 技 情 报 机 应 用 具  
信 息 技 术 应 用 合 将 技 情 报 研 究 变  
化 系 化 与 平 化 的 征  
、 。  
为 一 种 基 海 量 数 据 程  
企 业 门 及 粒  
技 情 报 研 究 数 据 的 研 究 范 度 技 情 务  
" "  
计 开 套  
[ 1 ]  
演 进  
企 业 企 业 企 业 情 况 灵 活 技  
、 、 、  
化 的 重 必 须 国 家 统  
是  
Python  
及 地 方 各 能 强 大 的 具 有 性  
性 和 面 的  
在 海 量 数 据 环 境 下 正 需 要 的 有 计 算 发 代 非 常 高  
, , ,  
确 的 技 情 作 不 用 了 具 有 大 和 丰 富 实 用 的 第 方 标 使 简  
, ,  
间 不 地 为 企 业 广 应 用 程 序 发 从 理  
, ,  
[ 2 ]  
于  
应 用  
使 于  
Web  
应 用 控 提 技  
Python  
作 为 国 家 网  
世  
CNKI  
上 最 大 的 中 信 息 数 据 库  
报 的 站 发 信 息  
进 行 关 键 字  
信 息 检 索 其 平 台  
美  
需 人 工 干 预 指 定 的 有  
, ,  
KBase  
国 家 并 取 得 了 成 功 在 全 球  
, 。  
信 息 送  
5 , 000  
基 金 项 目 上 海 市 经 委 专 项 资 金 项 目  
上 海 建 工 集 团 研 究  
) ; ꢀ  
17JCYJ ꢁ  
J - 2018 - ꢀ7  
ꢁ 。  
07  
科技视界  
7ꢀ  
Science & Technology Vision  
Science & Technology Vision  
科技视界  
项目题  
科技创新  
通 过 将 所 有  
for  
" page - link "  
div  
系 统 及 目 标  
1
值 给 了  
titles  
HTML  
企 业 研  
本 文 所 研 究 的 基  
技 情 识 别 检 索 以  
Python  
程 序 重 要 的 采 集 到  
预 设 渠 道 获 取 的  
信 息 存 为 文 本 文 作 为 件 通 过 件  
, ,  
报  
技 情 识 别 检 索 系  
进 行 阅 读 个 功 中 的  
自 行 相 关 关 键 报  
数 据 存 为 数 据  
之  
后 能 广 至 集 单  
的  
是 一 个  
者  
半  
xml  
ResposneBody  
json  
位 进 行 使 用  
数 据 数 据 无 法 者 直 懂  
将 文  
数 据 以 及  
大 大 数 据 性  
数 据 将  
excel  
系 统 计  
2
计  
2 . 1  
模 块  
2 . 3  
程 序 模 块  
通 过  
ꢀython  
: (  
1
本 文  
程 序 将 所 获 技  
2 . 2  
程 序 取 可 及 关 键 技 情 报  
数 据 后  
统 后 会 定 个  
数 据 指 定 式 保 数 据 中  
; (  
2
取 数 据 务  
与 系 信  
ꢀython  
于  
理 平 户  
B / S  
匹 配 新 情 个  
通 过 电  
word  
信 息 检 索 数 据 等 功  
、 、 、 、  
形 式 过 该 类 信 息 员  
程 序 架 如 图 示  
1
号  
技 情 报  
理 平 台  
使 在  
2 . 4  
检 索 技 情 信  
ꢀC  
必 须 于  
理 系 统  
HTML5  
员 在 登 录 统 后 可 使 信 息 检 索  
信 息 阅  
理 员 堆  
进 行 维  
URL  
对 系 进 行 分 理  
通 过 关 键 报 来 源 范  
、 、  
图  
1
数 据 中 的 技 情 进 行 检 索 并 可 通 过 出  
excel  
形 式 表 导 至  
外  
ꢀC  
于  
程 序  
2 . 2  
ꢀython  
以 对 新 情 报 的 关 键 报 来 源 进 行 台  
、 ,  
是 一 按 照 规 对  
信 息 进 行 历  
Web  
通 过 定 的 箱  
[ 3 ]  
维 网 信 息 程 序 或 本  
要  
进 行 理 之 外  
可  
理 是 的 地 集 合 历  
URL  
有  
HTML  
以 对 报 来 源 的  
进 行 信 息 来 源 的  
URL  
URL  
采 集 下  
子  
N
定  
作 为 一 使 的 是 络  
ꢀython  
面 中 的 有 信 息 后 把 中 的 数 据 存  
层 的  
返 回 结 果  
'
http  
'
数 据 置  
。 :  
址  
->  
URL  
个 过 由 于 的 不 定 以 及 对 器  
面  
获 取 信 息  
化 存 储  
HTML  
->  
->  
大 的 作  
ꢀython3  
身 问 题 经 常 返 回  
用 于 知  
" 404 Bad Request  
为  
urllib  
求 或 者  
"
" 500 Internal  
如 使 用  
。 ,  
打  
URL  
urllib . request . urlopen  
务  
Server Error  
开 并 为  
指  
[ 5 ]  
码  
"
因 此 在 系 个  
URL  
址  
获 取  
返 回 其  
URL  
ResposneBody  
工  
,
HttpResponse  
该  
否  
URL  
通 过 返 回 进 行 精  
统 开 应  
虫  
URL  
程 序 取 数 据 程  
程 序  
使 用  
一  
的 第 库  
ꢀython  
Beautiful Soup  
现  
国 家 信 息 例  
2 . 5  
析  
档  
含  
HTML XML  
Beautiful Soup  
程 序 实  
ꢀython  
有 未 档  
种 文 为  
tag  
现 方 式 骤  
便  
) 。  
soup  
构 造 访 指 定  
1
[ 4 ]  
其 中 的 数 据 数 据 采 集 时 非 常 用  
URL  
子  
url = " http : / / service . most . gov . cn / *** "  
headers = { 'User - Agent' : 'Mozilla / 5 . 0 ꢁ Windows NT  
10 . 0 ; Win64 ; x64 ) AppleWebKit / 537 . 36 ꢁ KHTML , like  
Gecko ) Chrome / 64 . 0 . 3282 . 140 Safari / 537 . 36' }  
面 源 出 具 有 一 性 的  
化  
soup = BeautifulSoup ( html ) / /  
其 中 得 到 以 理 把  
面 中 的 树  
soup  
HTML  
ꢀython  
大 的  
按 照 一 定 方 式 保 到  
程 序 可  
来  
AꢀI  
的 对 象  
Beautiful Soup  
2
HTML  
class='title'  
构 造 指 定 数 据 结 果 集 通  
个  
采 集 其 中 有 信 息  
上  
soup  
数 据 中  
a
面 的 段  
lists = soup . find_all ꢁ 'div' , class_ = 'page - link' )  
for li in lists :  
名 称 接 发 信 息  
、 、 :  
有  
a
h1s = soup . find_all ꢁ 'h1' , limit = 12 ) #  
titles . append ꢁ li . a . string )  
中  
句  
class = ꢂtitleꢂ  
变 量 获 取 了  
有 的  
值  
lists  
soup  
css  
科技视界  
Science & Technology Vision  
73  

全部评论(0)

暂无评论