推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的通用论坛正文提取的研究

更新时间:2019-12-21 10:14:04 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

关 键 词】 Python 通用论坛 正文提取 分析研究


部分文件列表

文件名 大小
基于Python的通用论坛正文提取的研究.pdf 2M

部分页面预览

(完整内容请下载后查看)
2019 年 1 期  
科学与技术  
理论广角  
基于 Python 的通用论坛正文提取的研究  
赵光亮 令狐雨薇 朱德孙 赵顺燕 陈凤 杨陶  
贵州师范学院 550018  
本文首先分析了研究背景、研究主题、研究工具与研究意义,同时阐述了研究方式,最后总结了研究流程,仅供参考。  
摘要:  
Python;通用论坛;正文提取;分析研究  
关键词:  
本文在 BBS 类论坛网页基础上,开展文本数据爬取与分析,  
开展通用论坛正文提取研究助 HTMLPython 工具建 BBS  
类论坛网页文本数据抓取算法,详细分析如下。  
1 研究背景与研究意义  
3.4.1 获取任意类型 BBS 类网站内的 URL 信息。  
3.4.2 就任意类型的 BBS 类网页,在正文提取阶段,需要在  
相关数据项上精准回帖,主贴置顶。本文研究中,通过在网页正  
文提出基础上助 html 标签对正文内容文发布时间文  
作者等开展深入分析,以此保障网页正文内容的有效提取[4]。  
3.4.3 就 BBS 论坛网页信息抓取,需要先对网页内的信息开  
展聚类处理。  
3.4.4 爬取用户需要的数据项信息,针对主贴发表作者、主  
贴主题、主贴内容、主贴发表时间等资料详细的网页。采取 BBS  
类论坛网页开展信息抓取助论坛内的网络爬虫过不断冲  
击,在超链接地址上获取更多的网页[5]。  
1.1 研究背景  
在大数据背景下接带动了各行各业的发展联网内网  
页数据是以半结构形式存在,部分信息被广告、垃圾链接遮挡。  
采取何种手段现网页文本信息的有效提出用户提供合理  
的阅读信息,成为当前急需解决的问题。  
1.2 研究意义  
一般情况下页采取的是超文本标记语言表达方式称  
HTML。在网页信息提取阶段,需要先获取 BBS 类论坛网页,借  
助 Python 语言,实现相关内容提取。  
3.5 结果分析  
就模型挖掘,经过数据处理之后,最终结果如下:  
标题信息  
2 研究方式  
2.1 正则表达式  
{标题信息:从这一案例中,你明白了什么道理?-人生哲理  
-大师}  
正则表达式属于一种模糊匹配所需网页信息于模糊匹配  
文字的最佳工具备很强的功能性特点助简单快捷的方式,  
可实现复杂字符串的控制,以此精准获取所需文本内容。  
2.2 Python 语言  
题主信息  
{题主信息夏天有点冷”}  
题主发帖内容  
Python 本身属于一款免费应用的软件身融合了多项功能,  
自带的各项技术,通过加载相应插件,可实现网络平台的搭建。  
借助 Python 语言与正则表达式能够实现网页信息的有效提取[1]。  
3 研究流程  
{题主发帖内容:[{在网上看到一则信息,大概内容是某  
山区一对年轻情侣,准备年底结婚”},{“但是,在通知所有亲  
朋好友之后,女方要求给 12 万,寓意“月月红为新娘购买三  
},{“男方认为要求有点过分,已经买车买房,酒席钱全部  
由男方出,还要 12 万与三金不合理,与女方商议不果,直接退  
婚”}{“男人不是百万富翁就别谈婚论嫁}}  
3.1 流程分析  
论坛正文提取流程主要包括照已知样本数据定网页  
网址—开展数据预处理—应用正则表达式定现阶段网页内容  
是否属于提取内容—依据正则表达式配网页信息需求—确定  
匹配模型—分析预期结果,给出最优解决方案。  
3.2 数据分析  
回帖信息  
{回帖信息:这就是中国光棍那么多的原因},{回帖信息:看  
来以后还得多生女儿!}  
回帖作者  
3.2.1 HTML 结构与解析  
{回帖作者:老兄顶住}  
HTML 本身属于一种标准的标记语言要是为 Web 页面创  
建提供依据。HTML 文档本身属于一种纯文本文档,可实现对象  
文档的形象描述,凸显出各个细胞在浏览器内的显性特征。  
3.2.2 BBS 网页结构分析  
回帖时间  
{回帖时间:2017-12-11,22:16:40}  
3.6 算法分析  
本文应用的一种固定算法究的是与 BBS 类似的网页就  
任意类型的 BBS 网站,在网页信息提取过程中未能达到预期效  
果。在算法使用与算法匹配阶段,需要参照相关原则,开展实时  
更新。本文使用的算法,并不适用不断更新的网页源代码。  
4 结束语  
基于 BBS 与 URL 分析,能够发现 BBS 网页内具备很多核心  
结构信息面上不同元素的特定标记不同同特定标记之间,  
借助 Python 语言可为网页信息挖掘提供方向。  
3.2.3 DOM 树与 HTML 文档解析  
DOM、HTML 文档获取、修改、删除或添加,均需要遵循  
HTML 元素标准。就具备价值的信息,提取出来可为企业、政府  
的决策提供指导。  
综上所述论坛正文提取研究文以 BBS 为例助正  
则表达方式,匹配网页代码需要的信息,并将其提取出来,以此  
保障正则表达式的精准应用使用之前使用者需要充分了解  
网页源代码的结构照所需内容各个标签基础上开展多网  
页分析过应用最大相似度的正则表达方式够实现网页源  
代码匹配标记本文研究存在着一定的局限性需要广大专  
家学者开展深入研究。  
3.3 数据处理  
BBS 类网页文本会榨取网页自身的语言结构与语言标签站  
在网页视觉分块特征基础上展各项分析与阐述般情况下,  
网页内的文本数据均位于标签[table]节点内实现页噪声”  
的去除般需要对每个节点开展相应处理此获取不含标签  
的纯文字符串[2]。  
为实现数据的有效抓取要对整体数据开展相应剔除比  
如:以 Web 网页为例,若网页无法正常打开,或指定的主题内  
容不存在需要对整体数据开展非正常剔除在网页无法打  
开,指定主题不存在或已删除,弹出返回操作指令,也需要非正  
常剔除整体数据。  
参考文献  
[1]赵光亮狐雨薇德孙顺艳凤.基Python  
的通用论坛正文提取研究[J].电脑知识与技术,2018,14  
(24259-260.  
[2]刘锐文韬园斌红.一种通用论坛信息提取方法[J].  
小型微型计算机系统,2018,39(071398-1404.  
[3]范媚琳明皎媛.论坛正文内容提取通用方法的研究[J].  
科技风,2017,26(1481-87.  
[4]李文强. 基于多特征融合的网页正文提取及双语网站探测[D].  
哈尔滨工业大学,2014,22(0241-45.  
通过研究 BBS 类网页 HTML 文档结构,在网页源代码阶段,  
为实现主贴内容的抽取障回帖信息的精准要构建对应的  
算法现目标信息的有效抓获助正则表达式中的匹配功能,  
可实现 URL 信息的快速抽取。为避免同一链接重复访问的情况  
出现,需要将已经访问过的 URL 备份到已经访问的队列中。作  
为网页内的“源网络爬虫需要将种子网页内的有效链接提取  
出来,并将其纳入到后补爬行队列中,参照用户希望的规定,实  
现 URL 的精准提取[3]。  
[5]李媛. 舆情系统web息抽取子系统的设计与实现[D].电子  
科技大学,2013,22(2560-64.  
贵州师范学院 2017 年度学生科研项目自主研究项目“基于  
Python 通用论坛正文提取的研究项目编号:  
2017DXS047;“ 州师范学院大学生互联网+创新创业训练  
中心(项目 编号教高发[2015]337教高2017)  
158贵州省高技术产业示范工程专项项目(黔发改投资  
[2015] 1588贵州省教育厅创新群体重大研究项目(合  
同编号:黔教KY[2016]040贵州省普通高等学校工程  
研究中心(合同编号:黔教KY[2016]015)  
3.4 建模挖掘  
互联网本身就如同一张巨大的蜘蛛网,Crawler 则如同一只  
蜘蛛,在大网上自由扫荡,实现互联网内各种文本信息的侦探,  
精准获取其中的有效文本信息实现舆情的有效获取坛正  
文提取方式主要如下。  
·166·  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载