您现在的位置是：首页 > 技术资料 > 基于Python的通用论坛正文提取的研究

推荐星级：

基于Python的通用论坛正文提取的研究

更新时间：2019-12-21 10:14:04 大小：2M 上传用户：songhuahua 查看TA发布的资源 标签：python 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

关键词】 Python 通用论坛正文提取分析研究

部分文件列表

文件名	大小
基于Python的通用论坛正文提取的研究.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

2019 年 1 期

科学与技术

理论广角

基于 Python 的通用论坛正文提取的研究

赵光亮令狐雨薇朱德孙赵顺燕陈凤杨陶

贵州师范学院 550018

本文首先分析了研究背景、研究主题、研究工具与研究意义，同时阐述了研究方式，最后总结了研究流程，仅供参考。

摘要：

Python；通用论坛；正文提取；分析研究

关键词：

本文在 BBS 类论坛网页基础上，开展文本数据爬取与分析，

开展通用论坛正文提取研究，借助 HTML、Python 工具，构建 BBS

类论坛网页文本数据抓取算法，详细分析如下。

1 研究背景与研究意义

3.4.1 获取任意类型 BBS 类网站内的 URL 信息。

3.4.2 就任意类型的 BBS 类网页，在正文提取阶段，需要在

相关数据项上精准回帖，主贴置顶。本文研究中，通过在网页正

文提出基础上，借助 html 标签对正文内容、正文发布时间、正文

作者等开展深入分析，以此保障网页正文内容的有效提取^[4]。

3.4.3 就 BBS 论坛网页信息抓取，需要先对网页内的信息开

展聚类处理。

3.4.4 爬取用户需要的数据项信息，针对主贴发表作者、主

贴主题、主贴内容、主贴发表时间等资料详细的网页。采取 BBS

类论坛网页开展信息抓取，借助论坛内的网络爬虫，通过不断冲

击，在超链接地址上获取更多的网页^[5]。

1.1 研究背景

在大数据背景下，直接带动了各行各业的发展。互联网内网

页数据是以半结构形式存在，部分信息被广告、垃圾链接遮挡。

采取何种手段，实现网页文本信息的有效提出，为用户提供合理

的阅读信息，成为当前急需解决的问题。

1.2 研究意义

一般情况下，网页采取的是超文本标记语言表达方式，简称

HTML。在网页信息提取阶段，需要先获取 BBS 类论坛网页，借

助 Python 语言，实现相关内容提取。

3.5 结果分析

就模型挖掘，经过数据处理之后，最终结果如下：

标题信息

2 研究方式

2.1 正则表达式

▷

{标题信息：从这一案例中，你明白了什么道理？-人生哲理

-大师}

正则表达式属于一种模糊匹配所需网页信息，属于模糊匹配

文字的最佳工具，具备很强的功能性特点，借助简单快捷的方式，

可实现复杂字符串的控制，以此精准获取所需文本内容。

2.2 Python 语言

题主信息

▷

{题主信息：“夏天有点冷”}

题主发帖内容

▷

Python 本身属于一款免费应用的软件，本身融合了多项功能，

自带的各项技术，通过加载相应插件，可实现网络平台的搭建。

借助 Python 语言与正则表达式能够实现网页信息的有效提取^[1]。

3 研究流程

{题主发帖内容：[{在网上看到一则信息，大概内容是：“某

山区一对年轻情侣，准备年底结婚”}，{“但是，在通知所有亲

朋好友之后，女方要求给 12 万，寓意“月月红”，为新娘购买三

金。”}，{“男方认为要求有点过分，已经买车买房，酒席钱全部

由男方出，还要 12 万与三金不合理，与女方商议不果，直接退

婚”}{“男人不是百万富翁就别谈婚论嫁！”}}

3.1 流程分析

论坛正文提取流程主要包括：参照已知样本数据，锁定网页

网址—开展数据预处理—应用正则表达式，判定现阶段网页内容

是否属于提取内容—依据正则表达式，匹配网页信息需求—确定

匹配模型—分析预期结果，给出最优解决方案。

3.2 数据分析

回帖信息

▷

{回帖信息：这就是中国光棍那么多的原因}，{回帖信息：看

来以后还得多生女儿！}

回帖作者

▷

3.2.1 HTML 结构与解析

{回帖作者：老兄顶住}

HTML 本身属于一种标准的标记语言，主要是为 Web 页面创

建提供依据。HTML 文档本身属于一种纯文本文档，可实现对象

文档的形象描述，凸显出各个细胞在浏览器内的显性特征。

3.2.2 BBS 网页结构分析

回帖时间

▷

{回帖时间：2017-12-11，22：16：40}

3.6 算法分析

本文应用的一种固定算法，研究的是与 BBS 类似的网页，就

任意类型的 BBS 网站，在网页信息提取过程中未能达到预期效

果。在算法使用与算法匹配阶段，需要参照相关原则，开展实时

更新。本文使用的算法，并不适用不断更新的网页源代码。

4 结束语

基于 BBS 与 URL 分析，能够发现 BBS 网页内具备很多核心

结构信息，页面上不同元素的特定标记不同，不同特定标记之间，

借助 Python 语言可为网页信息挖掘提供方向。

3.2.3 DOM 树与 HTML 文档解析

DOM、HTML 文档获取、修改、删除或添加，均需要遵循

HTML 元素标准。就具备价值的信息，提取出来可为企业、政府

的决策提供指导。

综上所述，就论坛正文提取研究，本文以 BBS 为例，借助正

则表达方式，匹配网页代码需要的信息，并将其提取出来，以此

保障正则表达式的精准应用。在使用之前，使用者需要充分了解

网页源代码的结构，参照所需内容，在各个标签基础上开展多网

页分析。通过应用最大相似度的正则表达方式，能够实现网页源

代码匹配标记。但本文研究存在着一定的局限性，还需要广大专

家学者开展深入研究。

3.3 数据处理

BBS 类网页文本会榨取网页自身的语言结构与语言标签，站

在网页视觉分块特征基础上，开展各项分析与阐述。一般情况下，

网页内的文本数据均位于标签[table]节点内，为实现页面“噪声”

的去除，一般需要对每个节点开展相应处理，以此获取不含标签

的纯文字符串^[2]。

为实现数据的有效抓取，需要对整体数据开展相应剔除。比

如：以 Web 网页为例，若网页无法正常打开，或指定的主题内

容不存在，则需要对整体数据开展非正常剔除。或在网页无法打

开，指定主题不存在或已删除，弹出返回操作指令，也需要非正

常剔除整体数据。

参考文献

[1]赵光亮，令狐雨薇，朱德孙，赵顺艳，杨陶，陈凤.基于Python

的通用论坛正文提取研究[J].电脑知识与技术，2018，14

（24）：259-260.

[2]刘锐，谭文韬，付园斌，王红.一种通用论坛信息提取方法[J].

小型微型计算机系统，2018，39（07）：1398-1404.

[3]范媚琳，司明皎，孟媛.论坛正文内容提取通用方法的研究[J].

科技风，2017，26（14）：81-87.

[4]李文强. 基于多特征融合的网页正文提取及双语网站探测[D].

哈尔滨工业大学，2014，22（02）：41-45.

通过研究 BBS 类网页 HTML 文档结构，在网页源代码阶段，

为实现主贴内容的抽取、保障回帖信息的精准，需要构建对应的

算法，实现目标信息的有效抓获。借助正则表达式中的匹配功能，

可实现 URL 信息的快速抽取。为避免同一链接重复访问的情况

出现，需要将已经访问过的 URL 备份到已经访问的队列中。作

为网页内的“源”，网络爬虫需要将种子网页内的有效链接提取

出来，并将其纳入到后补爬行队列中，参照用户希望的规定，实

现 URL 的精准提取^[3]。

[5]李媛. 舆情系统中web信息抽取子系统的设计与实现[D].电子

科技大学，2013，22（25）：60-64.

贵州师范学院 2017 年度学生科研项目自主研究项目“基于

Python 的通用论坛正文提取的研究”（项目编号：

2017DXS047）；“ 贵州师范学院大学生互联网+创新创业训练

中心”（项目编号：黔教高发[2015]337号、黔教高发（2017）

158号）；贵州省高技术产业示范工程专项项目（黔发改投资

[2015] 1588号）；贵州省教育厅创新群体重大研究项目（合

同编号：黔教合KY字[2016]040）；贵州省普通高等学校工程

研究中心（合同编号：黔教合KY字[2016]015）

3.4 建模挖掘

互联网本身就如同一张巨大的蜘蛛网，Crawler 则如同一只

蜘蛛，在大网上自由扫荡，实现互联网内各种文本信息的侦探，

精准获取其中的有效文本信息。为实现舆情的有效获取，论坛正

文提取方式主要如下。

·166·

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

SYFSSYYFF 打赏3.00元 3天前

资料：诺蒂菲尔4合一编程软件N-VFT V4
我是蒙帆打赏1.00元 3天前

资料：TS-14PFX-4 TS-16PFX-4 调音台说明书
21ic小能手打赏10.00元 3天前

资料：大疆M3508 无刷电机完整驱动程序
21ic小能手打赏10.00元 3天前

资料：智慧景区AI大模型智能安防应用方案
21ic小能手打赏5.00元 3天前

资料：数字政府AI大模型场景应用可行性研究报告
21ic小能手打赏5.00元 3天前

资料：数字县域智慧城市工程总承包（EPC）可行性研究报告Word(
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏210.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏210.00元 3天前

用户：xzxbybd
21ic下载打赏70.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：kk1957135547

21ic下载打赏15.00元 3天前

用户：w993263495
21ic下载打赏30.00元 3天前

用户：SkyEagle88
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏5.00元 3天前

用户：dong2223333
21ic下载打赏10.00元 3天前

用户：dxb3320
21ic下载打赏10.00元 3天前

用户：DXB193394
21ic下载打赏10.00元 3天前

用户：westup
21ic小能手打赏15.00元 3天前

资料：stm32的单片机带云台智能小车有图像识别
21ic小能手打赏20.00元 3天前

资料：科创大赛“料理人生”厨房智能机器人项目资料包
21ic小能手打赏8.00元 3天前

资料：久坐智能提醒坐垫项目申报书资料
21ic小能手打赏5.00元 3天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 3天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 3天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 3天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 3天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 3天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路

基于Python的通用论坛正文提取的研究

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页