深度实践OCR:基于深度学习的文字识别pdf下载

深度实践OCR:基于深度学习的文字识别百度网盘pdf下载

作者:
简介:深度实践OCR:基于深度学习的文字识别
出版社:机械工业出版社
出版时间:2020-04-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
  (1)作者阵容豪华,由阿里巴巴本地生活研究院算法团队技术专家领衔,海康威视、趣头条等企业的算法专家以及知名场景文本算法作者共同撰写;
  (2)行业应用和学术理论相结合,既有来自于阿里巴巴本地生活实际应用场景的一线实践经验和方法,又有来自学术前沿的新理论;
  (3)本书得到了阿里巴巴本地生活、达摩院、旷视科技、字节跳动、狗尾草等知名AI企业或机构的知名AI技术专家的联袂推荐;
  (4)本书不仅讲解了OCR的组件、方法、算法、实现,而且还介绍了学术界最前沿的文字检测和文字识别方法。
内容简介
  这是一部融合了企业界先进工程实践经验和学术界前沿技术和思想的ORC著作。本书由阿里巴巴本地生活研究院算法团队技术专家领衔,从组件、算法、实现、工程应用等维度系统讲解基于深度学习的OCR技术的原理和落地。书中一步步剖析了算法背后的数学原理,提供大量简洁的代码实现,帮助读者从零基础开始构建OCR算法。全书共9章:第1章从宏观角度介绍了ORC技术的发展历程、概念和产业应用;第2章讲解了OCR的图像预处理方法;第3~4章介绍了传统机器学习方法和深度学习的相关基础;第5章讲解了基于传统方法和深度学习方法的OCR的数据生成;第6章讲解了与OCR相关的一些高级深度学习方法,方便读者理解后续的检测和识别部分;第7章讲解了文字的检测技术,从通用的目标检测到文字的检测,一步步加深读者对文字检测问题的认识;第8章讨论了文字识别的相关技术,定位到文字的位置之后,需要对文字的内容进行进一步的解析;第9章介绍了一些OCR后处理的方法。
作者简介
  刘树春
  阿里巴巴本地生活研究院算法专家,前复旦七牛云联合实验室OCR算法负责人,在OCR相关技术的落地和实现方面有深入的研究和丰富的实践经验,在菜单识别、车牌检测识别、卡证识别、商业广告文字检测和识别、票据类识别等应用场景中积累了丰富的经验。曾经组队参加COCO竞赛、ICDAR刷榜等活动,并发表多篇论文。
  贺盼
  佛罗里达大学在读博士,担任 CVPR、ICCV、ECCV等10多家国际顶会审稿人或程序委员,在场景文本领域发表过多篇国际会议论文 (DTRN、CTPN、SSTD等)。曾经在中科院先进技术研究院、港中文、旷世美国研究院等做过相关研究工作,对场景文本有深刻的认识,并且对场景文本学术前沿有很强的感知力。
  马建奇
  著名的RRPN算法的作者,发表过多篇国际会议论文,曾经在旷世研究院做过检测相关的工作,在上海高等研究院做过文字检测相关的工作,曾经组队参加过ICDAR 17 MLT比赛,获得前三名。曾获Facebook研究实习机会。目前即将开始修读博士学位,正在做文字识别相关的工作,对于OCR的问题有独到的见解。
  王佳军
  阿里巴巴本地生活研究院高级算法专家,负责本地生活研究院图像算法团队的管理、研发等工作,曾经在滴滴研究院做相关算法的研究。业余时间担任深度学习框架MXNet的技术专家,对实际算法的落地优化等有非常深入的耕耘,具有很强的OCR相关项目的落地能力。
  谢雨飞
  趣头条算法工程师,曾在七牛云做OCR、NLP相关算法的研究工作,发表过多篇国际论文。
  陈明曦
  纽约大学硕士研究生,曾在七牛云从事OCR相关工作,发表相关论文数篇。
目录
推荐序
前言
第1章 绪论
1.1 人工智能大潮中的OCR发展史
1.1.1 传统OCR方法一般流程
1.1.2 基于深度学习OCR方法一般流程
1.2 文字检测
1.3 文字识别
1.4 产业应用现状
1.5 本章小结
1.6 参考文献
第2章 图像预处理
2.1 二值化
2.1.1 全局阈值方法
2.1.2 局部阈值方法
2.1.3 基于深度学习的方法
2.1.4 其他方法
2.2 平滑去噪
2.2.1 空间滤波
2.2.2 小波阈值去噪
2.2.3 非局部方法
2.2.4 基于神经网络的方法
2.3 倾斜角检测和校正
2.3.1 霍夫变换
2.3.2 Radon变换
2.3.3 基于PCA的方法
2.4 实战
2.5 参考文献
第3章 传统机器学习方法绪论
3.1 特征提取方法
3.1.1 基于结构形态的特征提取
3.1.2 基于几何分布的特征提取
3.2 分类方法模型
3.2.1 支持向量机
3.2.2 K近邻算法
3.2.3 多层感知器
3.3 实战:身份证号码的识别
3.3.1 核心代码
3.3.2 测试结果
3.4 本章小结
3.5 参考文献
第4章 深度学习基础知识
4.1 单层神经网络
4.1.1 神经元
4.1.2 感知机
4.2 双层神经网络
4.2.1 双层神经网络简介
4.2.2 常用的激活函数
4.2.3 反向传播算法
4.3 深度学习
4.3.1 卷积神经网络
4.3.2 常用优化算法
4.4 训练网络技巧
4.4.1 权值初始化
4.4.2 L1/L2正则化
4.4.3 Dropout
4.5 实战
4.6 参考文献
第5章 数据生成
5.1 背景介绍
5.2 传统单字OCR数据生成
5.3 基于深度学习的OCR数据生成
5.3.1 文字检测数据的生成
5.3.2 检测图片生成
5.3.3 其他方法
5.3.4 识别数据生成
5.4 通过GAN的技术生成数据
5.4.1 GAN背景介绍
5.4.2 GAN的原理
5.4.3 GAN的变种
5.5 图像增广
5.5.1 常用的图像增强方法
5.5.2 深度学习方法
5.6 常用的开源数据集
5.7 ICDAR的任务和数据集
5.8 本章小结
5.9 参考文献
第6章 深度学习高级方法
6.1 图像分类模型
6.1.1 LeNet5
6.1.2 AlexNet
6.1.3 VGGNet
6.1.4 GoogLeNet
6.1.5 ResNet
6.1.6 DenseNet
6.1.7 SENet
6.1.8 轻量化网络
6.2 循环神经网络
6.2.1 RNN网络
6.2.2 GRU
6.2.3 GRU的实现
6.2.4 LSTM网络
6.3 Seq2Seq
6.4 CTC Loss
6.4.1 算法详解
6.4.2 前向传播
6.4.3 后向传播
6.4.4 前向/后向算法
6.4.5 CTC算法特性
6.4.6 代码解析
6.5 Attention
6.6 本章小结
6.7 参考文献
第7章 文字检测
7.1 研究意义
7.2 目标检测方法
7.2.1 目标检测相关术语
7.2.2 传统检测方法
7.2.3 Two-stage方法
7.2.4 One-stage方法
7.3 文本检测方法
7.3.1 传统文本检测方法
7.3.2 基于深度学习的文本检测方法
7.4 本章小结
7.5 参考文献
第8章 字符识别
8.1 任务概览
8.2 数据集说明
8.2.1 数据集意义
8.2.2 常见识别数据集介绍
8.3 评测指标
8.3.1 编辑距离
8.3.2 归一化编辑距离
8.3.3 字符准确度
8.3.4 词准确率
8.3.5 语境相关的评测方式
8.4 主流算法介绍
8.4.1 传统光学方法
8.4.2 完全基于深度学习的方法
8.5 CRNN模型实战
8.5.1 简介
8.5.2 运行环境
8.5.3 测试部分讲解
8.5.4 测试运行结果
8.5.5 训练部分
8.5.6 用ICDAR2013数据集训练CRNN模型
8.6 本章小结
8.7 参考文献
第9章 OCR后处理方法
9.1 文本纠错
9.1.1 BK-tree
9.1.2 基于语言模型的中文纠错
9.2 文本结构化
9.2.1 模板匹配
9.2.2 文本分类
9.3 本章小结
9.4 参考文献
第10章 版面分析
10.1 版面分析详解
10.2 复杂版面识别
10.3 文档恢复
10.4 本章小结
10.5 参考文献
媒体评论
  随着深度学习的广泛应用,OCR技术历久弥新,近几年取得了脱胎换骨的进展。阿里巴巴本地生活提供了各种线上线下融合的场景,催生了如菜单识别、小票识别、招牌识别、包装文字识别等富有生活味道的需求,对 OCR 技术提出了新的挑战。本书将OCR 的前沿理论与行业应用深度结合,能帮助读者更好地理解和掌握新的OCR 技术。
  ——李佩 阿里巴巴本地生活研究院高级总监
  作为系统性讲解OCR的专业书籍,本书汇集了阿里本地生活研究院技术团队对深度学习领域OCR的理论研究和实践经验,可读性和实操性俱佳,是相关专业学生和从业者不可多得的一本工具书。
  ——魏秀参 旷视南京研究院院长
  文字识别改变内容的表达和交互方式,是各行业信息化和数字化的基础,在多媒体内容理解、人工辅助驾驶、无障碍信息交流等方向都发挥着不可或缺的作用。本书讲解了文字识别技术的理论和方法,兼顾入门读者和进阶读者的需求。同时,书中分享了大量应用案例和实战经验,能帮助读者实现AI场景落地。
  ——王永攀 阿里达摩院读光OCR负责人
  相较于图像信息,文字信息更加直接、易用。识别图像中的文字,是很多AI应用的非常关键的一步。本书不仅包括文字识别相关的理论和算法,还包括很多技术落地方面的实践和应用,帮助图像算法工程师少走弯路,快速学习。
  ——邵杰 字节跳动AI实验室资深研究员
  图像识别是计算机视觉领域非常重要的研究方向,传统的机器学习方法主要关注图像内容的挖掘,如果能够识别出图像中的文字,对于图像的理解和后续的应用都有非常大的帮助。本书不仅讲解了机器学习和深度学习的基础知识,阐述了文字识别的相关理论和算法,更重要的是,还给出了技术实践和应用,可以帮助图像算法工程师快速学习和落地文字识别系统。
  ——邵浩 狗尾草人工智能研究院院长
前言
  前言
  文字作为人类传播文明、传递信息、记录思想的重要载体,在我们的生活中占据着举足轻重的地位,所以文字识别是目前最受关注的AI技术之一。OCR技术应用非常广泛,相较于图像,文字作为抽象的符号,承载着大量的信息,所以识别文字有非常大的价值。从历史角度看,文字识别是一门古老的技术,但是从实验室走出来,走进人们的生活,也只是近些年才发生的事情。特别是在深度学习应用于文字识别领域后,文字识别精度逼近人工水平,发展出非常多的应用。
  笔者作为机器视觉方面的从业者,在刚开始将最新的深度学习技术应用到文字识别时遇到很多困难,常常苦恼于市面上鲜有全面介绍文字识别实现原理和方法的资料,特别是中文书籍,即使有,所介绍的技术也非常落后,远远脱离产业以及学术前沿。随着自己不断地学习和尝试,在反复试错以及与同行交流后,慢慢掌握了其中的方法。为了帮助更多与我有相似经历的人,我们几位同事把基于深度学习的OCR方法整理出来,希望能帮助更多相关从业人员。
  本书从OCR的出现讲到中间经历的传统技术,再到最新的基于深度学习的技术,同时根据OCR常用技术流程——从数据、模型对文字的定位、识别到后处理等,对OCR技术做了一个深度梳理,带领读者进入一个引人入胜的文字识别智能世界,领略各种神经网络的魅力及挑战。
  全书总共有10章,逻辑上分为四个部分。
  第一部分(第1~3章),主要介绍传统OCR技术。
  第二部分(第4~6章),主要介绍OCR中一些基础的组件和方法。
  第三部分(第7~8章),主要跟踪前沿的文字检测和文字识别技术。
  第四部分(第9~10章),主要介绍一些常用的后处理方法和版面分析方法。
  本书在内容上尽可能涵盖了OCR领域的基础知识,在合著伙伴的组成上,有学术界第一梯队的青年学者,同时也有产业界一线从业者,希望尽可能实现理论与实践并重。
  写作分工
  刘树春编写第1章、第5章、第6章、第10章。
  贺盼编写第7章。
  马建奇编写第8章。
  王佳军编写第9章。
  谢雨飞编写第3章。
  陈明曦编写第2章、第4章。
  本书特点
  本书具有如下特点:
  1.作者有学术界的OCR研究者,也有工作在一线的OCR从业者,试图做到理论与实践结合。
  2.涵盖的知识面比较全,包括传统的OCR方法以及最新的基于深度学习的OCR方法。
  3.强化了对代码的梳理,方便读者实战运行。
  本书读者
  本书可作为OCR从业人士或者研究生的参考资料或者入门教程,用来了解OCR相关前沿技术。
  感谢
  本书在后期修订中得到了邵蔚元、张飞云、刘树芳、龙力等同仁的帮助。他们抽出宝贵的时间帮忙审阅,并提出了中肯的意见和建议。
  感谢阿里巴巴本地生活研究院提供的支持与帮助,特别是李佩博士与何田院士对我们工作的鼎力支持。
  感谢机械工业出版社的编辑杨福川、张锡鹏和董惠芝,没有他们的努力就没有本书的顺利出版。
  最后,感谢各位读者朋友。
  读者服务
  由于OCR领域的发展日新月异,本书无法做到在所有细分领域面面俱到。而且笔者笔力有限,书中会有很多不足的地方,还望读者能够帮忙指正,不胜感激,日后定将勤加修订升级。
  本书通过GitHub(https://github.com/ocrbook/ocrinaction)进行各种资源的交互,以及信息的反馈。
  谢谢大家!
  刘树春
精彩书摘
  第1章 绪论
  财务人员通过财务OCR系统,可及时获取发票上的公司抬头、金额、编号等信息,无须人工录入,直接导入数据库;把手机摄像头对焦到名片上,即可实时导入客户的信息,免去打字输入的烦恼;拍摄路边的招牌信息,从中提取文字标识,综合当前GPS定位,即可直接匹配到该店面的评价页面,免去手动输入关键字搜索的麻烦;对图书馆的古籍进行文字识别,将其转化为文字编码信息,可减轻古籍工作者誊抄的工作量。所有这些场景背后都用到一项重要技术——光学字符识别(Optical Character Recognition,OCR)。
  1.1 人工智能大潮中的OCR发展史
  在上古时代,人们就有一个梦想——创造能像我们人类一样,具有独立思考和推理能力的智能体。例如,古籍《列子》记载,偃师为周穆王造仿的真人,能歌善舞,且能够执行人类发出的指令。《荷马史诗》也描述过赫菲斯托斯在山上,与仆人熔化链条制作兵器和各种机械人的故事。
  直到20世纪50年代,一群怀揣梦想的科学家在美国的达特茅斯学院才正式提出人工智能(Artificial Intelligence)概念,从此开启了人工智能的新纪元。此后,无数科学家投入人工智能领域。随后的几十年里,人工智能三起三落,技术不断推陈出新。其发展脉络如图1-1所示。
  与此同时,作为人工智能领域一个非常小的技术,OCR也随着人工智能的发展起起落落。
  光学字符识别(OCR)这一概念,最早由德国科学家Tausheck在1929年提出[1]。几年后,美国科学家Handel也提出了文字识别的想法,当然直到计算机的出现,这一想法才得以慢慢实现。汉字识别最早是由IBM公司的工程师Casey与Nagy实现的,他们在1966年发表了首篇汉字识别相关的文章,采用的是模板匹配的方式,可以识别1000个印刷体汉字。之后,OCR技术得到大量研究,经过近60年的发展,并且随着相关技术以及算力的提升,现在已经广泛应用在各个领域。
  图1-1 人工智能发展脉络
  相较于印刷体西班牙语的识别,印刷体汉字的识别要更难(中文汉字类别多,字体风格也多变)。最早可以追溯的汉字识别,是IBM的基于模板匹配的方法。20世纪70年代,日本东芝综合研究所研制出可以识别2000个单体印刷汉字的识别系统,代表了当时汉字识别的最高水准。与此同时,三洋、松下、富士通等公司也各自在研制印刷体的识别系统。这些系统大多使用基于K-L数字变换的匹配方案,需要大量的专业硬件设备,体积庞大,造价昂贵,所以使用相对有限。
  到了20世纪90年代,LeNet5网络的出现开创了深度学习的新纪元,并且在OCR的应用中达到了商用的水平,之后由于种种原因,沉寂了10年。直到2012年,AlexNet网络的出现使得视觉相关的技术进入爆发期,加之此后识别网络和物体检测框架的革新也间接地促进了OCR技术的发展。文字检测领域借鉴了物体检测的经典网络Faster RCNN[3]系列、Yolo[4]系列,发展出一系列文字专用检测技术,如CTPN[5]、TextBox[1]系列、DenseBox等。文字识别领域借鉴了识别网络和序列化网络,演变出以CNN+RNN+CTC以及CNN+RNN+Attention为主流的识别方式。此后,人们逐渐摒弃了传统的字符切割识别方式。
  与发达国家相比,我国的OCR技术研究起步较晚,直到20世纪70年代才开始,所以一直处于后继追赶的状态。但是,随着深度学习逐渐变成研究热点,我国迅速走在世界前列。这主要是由于国内出现了一大批富有实干精神的青年研究学者,代表有华中科技大学白翔教授组、华南理工大学金连文教授组、中国科学院深圳先进技术研究院的乔宇教授组、中科院自动化所刘成林教授组、清华大学丁晓青教授组、北京大学高良才教授组、北京科技大学殷绪成教授组,以及澳洲阿德莱德大学的沈春华教授组等。同时,在工业界,大量公司走在世界前列,例如阿里巴巴、腾讯、百度、商汤、旷视、华为、云从、依图、海康威视、科大讯飞等。当然,发达国家也有很多相关的研究机构,例如牛津大学VGG视觉组,以及Google、Facebook、Adobe等公司。