推荐星级：

基于Python语言的图文识别方法研究

更新时间：2019-12-21 12:47:09 大小：1M 上传用户：songhuahua 查看TA发布的资源 标签：python 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

日常生活中,当我们看到一些书籍或者扫描文件时,会发现文字、公式、链接是以图片形式呈现的,那么如何把图片里面的文字或者公式识别并且提取出来,并转换成可编辑的文档形式呢?本文提出一种图文识别方法,本方法基于Python语言的第三方库,编程简单、识别正确率高,将为人们进行文本编辑带来极大的便利。

部分文件列表

文件名	大小
基于Python语言的图文识别方法研究.pdf	1M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

安全模型、算法与编程

基于 Python 语言的图文识别方法研究

◆史记征崔俊

（重庆安全技术职业学院重庆 404020）

摘要：日常生活中，当我们看到一些书籍或者扫描文件时，会发现文字、公式、链接是以图片形式呈现的，那么如何把图片里面的文

字或者公式识别并且提取出来，并转换成可编辑的文档形式呢？本文提出一种图文识别方法，本方法基于 Python 语言的第三方库，编

程简单、识别正确率高，将为人们进行文本编辑带来极大的便利。

关键词：Python 语言；图文识别；pytesseract 库

将图片翻译成文字一般被称为光学字符识别，其英文拼写为

Optical Character Recognition，简称 OCR。光学字符识别的处理

对象是通过拍照或者扫描获得的图片文本资料，并对图像文件进

行分析提取，从而获得图片上的文字信息的过程。OCR 的应用多

在打印、平面广告、印刷等行业，用来快速将图片或纸质资料转

换为可供编辑的文本资料，技术性较强，对从业人员要求较高。

在国内，对中文 OCR 研究水平较高的企业有汉王、清华文通、

尚书，他们的产品各具特色，价格昂贵。国外对 OCR 的研究较

早，IBM、惠普、微软等一些大型智能产品公司，虽然没有生产

自己的 OCR 产品，但他们的技术人员早已掌握 OCR 核心原理，

并在自己的软件系统中嵌入了 OCR 功能。对于一般的程序设计

者，并不需要完整的 OCR 功能，主要在开发中能够集成基本的

OCR 功能就可以了。利用 Python 语言第三方库，通过少量代码，

即可实现图文识别，将给工作、生活、学习带来极大便利。

1 Python 语言图文识别背景

而又非常强大编码风格实现了面向对象编程。在“面向过程”的语

言中，程序是由过程或仅仅是可重用代码的函数构建起来的。

（7）解释性

Python 作为一种解释型编程语言，在开发过程中不存在编译

环节。通常情况下，由于程序运行不依赖于本地机器码，纯粹的

解释型语言通常比编译型语言运行得慢。然而，与 Java 语言类

似，Python 本质上是字节编译的，其结果就是可以生成一种近似

于机器语言的中间形式。这不仅改善了 Python 的性能，同时使它

保持了解释型语言的优点。

（8）可扩展可嵌入性

在 Python 中，部分程序可以使用其他语言编写，如 C/C++。

同时，Python 还可以嵌入到 C/C++程序中，为它们提供脚本功能。

语言版本

1.2 Python

Python 发展至今，经历了多个版本的更迭，目前仍然保留的

版本主要是基于 Python2.X 和 Python3.X。Python3.X 是未来的趋

势，有许多重要的类库都已经停止对 Python2.X 的更新，只保留

对 Python3.X 的更新。

语言的特点

1.1 Python

吉多·范罗苏姆（ Guido Van Rossum）作为 Python 语言的设

计发明者，于 1990 年发布了 Python 的第一个版本。作为一种计

算机高级程序设计语言，Python 具有如下特点：

（1）易于学习

图文识别

1.3

API

Python 进行图文识别主要使用 pytesseract 库和 pillow 库。

PyTesser 是 Python 的光学字符识别模块，它将图像或图像文件

作为输入并输出一个字符串。PyTesser 使用 Tesseract OCR 引擎，

将图像转换为可接受的格式，并将 Tesseract 可执行文件作为外

部脚本调用。PIL（Python Imaging Library）是 Python 平台上的

图像处理标准库，PIL 功能非常强大，但其 API 却非常简单易用。

由于 PIL 仅支持到 Python 2.7，于是有编程爱好者在 PIL 的基础

上创建了兼容的版本，名字叫 pillow，支持最新的 Python 3.x。图

文识别需要安装 Tesseract OCR 引擎，Tesseract 的 Windows 安装

包下载地址为：http：//digi.bib.uni-mannheim.de/tesseract/tesseract-

ocr-setup-4.00.00dev.exe，下载后双击直接安装即可。安装完成后，

Python 的编程思维简单，注重逻辑、轻于语法，库资源丰富。

Python 的程序流程清晰、控制简单，保留字较少、易于理解。

（2）易于阅读

Python 代码定义得非常清晰，它没有使用其他语言通常用来

访问变量、定义代码块和进行模式匹配的命令式符号，而是采用

强制缩进的编码方式，去除了“{}”等语法符号，从而看起来十分

规范和优雅，具有极佳的可读性。

（3）免费、开源

Python 是 FLOSS （自由/开放源码软件）之一。使用 Python

是免费的，开发者可以自由地发布这个软件的副本，阅读源代码，

甚至对它做改动。

需要将 Tesseract 添加到系统变量中。如识别中文汉字，需到 https：

//github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata

下载 chi_sim.traineddata 文件，然后将 chi_sim.traineddata 文件放

（4）高级语言

到 Tesseract OCR 引擎安装目录下的 tessdata 文件夹下。

使用 Python 语言编程时，无须考虑诸如管理程序内存等底

层的细节，只需集中精力关注程序的主要逻辑即可。

（5）可移植性

2 Python 语言在图文识别中的应用

第三方库安装

2.1

Python 第三方库最常用的安装方式是通过 pip 命令。作为

Python 的内置命令，pip 需要通过命令行执行。本文所需库的安

装命令有两条：pip install pillow、pip install pytesseract。

由于 Python 语言具有开源的特点，Python 代码的移植非常

方便，可以在各种不同的操作系统上运行，应用十分广泛。在计

算机的各个领域，Python 都取得了一席之地，成长持续迅速。因

为 Python 是用 C 语言开发的，正是由于 C 语言具有极强的可移

植性，使得在任何带有 ANSI C 编译器的平台上也可以运行

Python 代码。

图文识别过程

2.2

（1）在 D 盘根目录下保存待识别的图片文件，文件分别命

名为“数字.png”、“英文.png”、“汉字.png”、“符号.png”，图片文件

内容如图 1——图 4 所示。

（6）面向对象

（2）编写 Python 代码

Python 不但支持面向对象编程，也支持面向过程编程。在“面

向对象”的编程语言中，程序代码是由数据和功能组合而成的对

象构建起来的。与其他的面向对象语言不同，Python 以极其简单

#文件名：ImageConvertText.py

# -*- coding： utf-8 -*-

‖43‖

安全模型、算法与编程

from PIL import Image

import pytesseract

print（"-------------------------------------"）

text=pytesseract.image_to_string（Image.open（'D：\XX.png'），

lang='chi_sim'）

#XX 代表 D 盘下待识别的图片文件名

#chi_sim 是一个解析中文简体的数据包，需自己下载

print（text）

图 7 符号识别结果

print（"-------------------------------------"）

图 8 汉字识别结果

从识别结果可以看出：Python 库对数字、英文单词、汉字的

识别正确率极高，能达到 99%；但对常见符号的识别正确率较低。

这和图片上文字所使用的字体、图片清晰度、图片是否有污点、

图片中的文字是否排列整齐有关。可以通过机器学习，对常见符

号进行识别训练，以提高识别正确率。

图 1 数字

图 2 英文

3 结语

由于 Python 语言拥有强大的第三方库，利用 Python 库进行

图文识别，代码量少、识别准确率高，为图片文字转化为可编辑

的文本提供了一种有效的途径，将为人们获取知识提供极大的便

利。

图 3 符号

图 4 汉字

（3）图文识别结果分析

参考文献：

[1]李琳.基于 Python 的网络爬虫系统的设计与实现[J].信

息通信，2017（09）： 26-27.

图 5 数字识别结果

[2]云洋.基于 Python 的图片爬虫程序设计[J].电子技术与

软件工程，2018（17）： 241-242.

[3]严婷，欣秀，赵嘉豪，等.基于 Python 的可视化数据分

析平台设计与实现[J] .计算机时代， 2017，（ 12）： 54-56.

[4]王弘博，孙传庆.Mark Summerfield. Python3 程序开发

指南（第 2 版）[M].人民邮电出版社，2015.

[5]李秀英，袁红.几种图像缩放算法的研究[J].现代电子技

术，2012，35（5）： 48-51

基金项目：2018 年重庆市高等职业教育双基地建设重庆

安全技术职业学院“大数据与物联网融合实训基地”项目支持。

图 6 英文识别结果

视觉显著性和图像分割算法分析

◆郭宇晴李想

（河北工业大学天津 300401）

摘要：在图像分割过程中，由于背景图颜色的影响，很容易造成分割错误问题或 shrinking bias 现象，影响图像处理质量。为改善因图

像前景与背景重叠所产生的图像处理问题，本文借助视觉显著性和交互式图像分割算法完成相应的图像处理工作。首先选用 Mean Shift

算法，实现对原始图像基础区域的快速分割，可确保对图像区域的预处理，有效减少后期图像处理的计算量；之后借助视觉显著性技

术对图像内容进行合理分析；同时，应用局部的自适应技术，避免 shrinking bias 现象发生。在多种图像处理工作中，该算法均表现出

了较为快速的处理能力，且能保证分割的准确性。

关键词：图像分割；视觉显著性；原始图像

在进行图像分割操作时，需要借助多种算法来确保对目标对

象的有效分离。其作业的实质是在特定的图像背景中，将目标对

象进行有效获取和分离。在实际运用图像分割技术时，往往会受

到图像内容的限制，使得图像分割的精确性受到较大影响。通常

‖44‖

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

SYFSSYYFF 打赏3.00元 2天前

资料：诺蒂菲尔4合一编程软件N-VFT V4
我是蒙帆打赏1.00元 3天前

资料：TS-14PFX-4 TS-16PFX-4 调音台说明书
21ic小能手打赏10.00元 3天前

资料：大疆M3508 无刷电机完整驱动程序
21ic小能手打赏10.00元 3天前

资料：智慧景区AI大模型智能安防应用方案
21ic小能手打赏5.00元 3天前

资料：数字政府AI大模型场景应用可行性研究报告
21ic小能手打赏5.00元 3天前

资料：数字县域智慧城市工程总承包（EPC）可行性研究报告Word(
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏210.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏210.00元 3天前

用户：xzxbybd
21ic下载打赏70.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：kk1957135547

21ic下载打赏15.00元 3天前

用户：w993263495
21ic下载打赏30.00元 3天前

用户：SkyEagle88
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏5.00元 3天前

用户：dong2223333
21ic下载打赏10.00元 3天前

用户：dxb3320
21ic下载打赏10.00元 3天前

用户：DXB193394
21ic下载打赏10.00元 3天前

用户：westup
21ic小能手打赏15.00元 3天前

资料：stm32的单片机带云台智能小车有图像识别
21ic小能手打赏20.00元 3天前

资料：科创大赛“料理人生”厨房智能机器人项目资料包
21ic小能手打赏8.00元 3天前

资料：久坐智能提醒坐垫项目申报书资料
21ic小能手打赏5.00元 3天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 3天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 3天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 3天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 3天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 3天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路

基于Python语言的图文识别方法研究

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页