推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于标签识别的网页源代码分析与内容提取应用技术研究

更新时间:2020-02-09 06:03:55 大小:3M 上传用户:gsy幸运查看TA发布的资源 标签:标签识别 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

随着互联网和计算机的的普及与发展,互联网出现了纷繁复杂的信息源,这些信息源主要以 HTML(以及 XHTML或 XML)网页形式存储。通常情况下,这些页面中经常夹杂着大量用户不感兴趣的内容,如推荐链接和宣传视图等,这些噪音数据不但会使用户阅读效率降低还会严重影响搜索引擎查找和网页的资源挖掘的精确度。本文通过分析超链接与网页正文的结构特点,基于HTML(包括XHTML和 XML)区域分块原则,将 HTML中的无关元素(即,噪音)做删除处理并直接提取HTML源代码中的正文部分。在进行删除超链接部分时,必须考虑该超链接与上下文之间的语义关系,以此达到保持源网页中正文部分内容与结构的完整,以此来消除由于盲目删除全文中超链接所带来的全文缺失问题。

  本文的研究内容及成果如下:

  (1)用Python抓取大量的网页,提取其中的文字标签和图像标签,综合分析标签的特点,在统计的基础上划定HTML网页中与正文相关的内容和不相关的内容(如图像链接)的界限。

  (2)在分析HTML网页中与正文相关的内容和与正文不相关的内容的基础上,提出了HTML中的正文文字与图像链接判定方法。

  (3)基于上述方法提出区域分块的HTML(XHTML或 XML)元素删除法和元素嵌入式筛选法来提取 HTML正文。并在此基础上,使用 Python语言来建立模型并实行优化,完成对网页主题内容的提取工作。

  (4)通过Python语言将上述方法、原理加以实现。分别做了三组实验,用于对比文本正文提取和 script中有关正文部分的提取并将对两种实验算法进行时间效率的对比试验。

  实验表明本文所提出的算法是高效并且准确度更高的。通过加入简单的文字识别技术,使得本文的方法可以应用于更加广泛存在的网页正文提取,可以有效地将 script中的正文相关文字进行提取。所以本文的方法是可行的、高效的、具有一定的实用和使用价值。

部分文件列表

文件名 大小
基于标签识别的网页源代码分析与内容提取应用技术研究.pdf 3M

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载