推荐序
自20世纪90年代末以来,图像搜索,即基于图像内容的图像检索,在计算机视觉领域吸引了广泛的关注,研究人员展开了大量的研究。图像搜索的研究工作中一个核心问题就是如何有效地表征图像的视觉内容,使得在给定检索图像的情况下,具有相似物体或视觉表现的图像在表征空间的距离较近,反之,视觉内容不相似的图像则距离较远。
在深度学习技术被广泛应用之前,业界尝试了很多基于传统视觉技术的方法。传统的方法一般依赖人工设计的视觉特征,但此种特征通常无法有效地表征自然界中多样的视觉内容,导致在图像搜索时通常效果不佳。与此不同的是,深度学习,准确而言是深度特征学习,能自动从数据中挖掘并学习到图像的紧致视觉表征,这种表征可以同时描述图像的低层结构和高层语义信息,从而能更加有效地处理多样的视觉内容。
在几十年的艰难求索之后,深度学习的成功应用终于给图像搜索领域带来了新的生机。如今,图像搜索已经渗透到人们的日常生活中。比如阿里巴巴的拍立淘产品,能够让用户通过对商品拍照就轻松地找到相同或者相似的商品,这极大地方便了人们的日常购物。
虽然深度学习是图像搜索在多种场景的实际应用中取得较好效果的关键技术,但是要搭建一个成功有效的图像搜索系统还需要很多方法和技巧,这正是本书所要阐述的。本书详细介绍了图像处理和计算机视觉的核心算法模块,如目标检测、图像分类和图像分割等。图像搜索系统在实际场景中能稳定可靠地运行,离不开本书列出的每一个技术模块。本书也包含了一些深度学习的基础学习材料,尤其是卷积神经网络在大规模图像搜索和识别中的应用。
虽然市面上有很多关于深度学习的资料,但无论是入门介绍还是深入讲解的,大部分很少谈及大规模图像搜索和识别的重要技巧。和很多的研究论文不一样,本书深入阐述了大规模图像搜索工程系统的核心模块——向量检索。如果没有一个稳定的、大规模的向量检索系统,大规模的图像搜索就很难在实际中应用。因为一个用户查询可能会花费几分钟甚至几小时的时间,这通常取决于查询库的大小。在本书的最后,作者以阿里巴巴图像搜索和识别系统拍立淘为应用示例,介绍了这些算法在实际产品中是如何实现、配合和部署的。
作者不仅在书中介绍了大规模图像搜索和识别的相关基础技术知识,作为拍立淘的创始人和负责人,他还分享了成功构建图像搜索和识别系统的经验,这就是本书独一无二的地方。
金榕,阿里巴巴集团副总裁,达摩院副院长
好评袭来
最近几年,深度学习方法在计算机视觉领域大放异彩。从2012年AlexNet提出,到2014年GoogLeNet首次打破人类在ImageNet上的正确率,以卷积神经网络为基础的深度学习算法在计算机视觉的各个子领域都实现了远远超过传统算法的效果。同时,“AI Engineering”变成了这些算法落地和体现业务价值当中的重要一环,无论是AI创业公司还是传统企业,都关注如何通过大量开源软件和算法迅速实现业务价值。
即使对于专业的工程师而言,详细了解近年CV领域的每一个细节都是一个巨大的挑战。本书将近年来的算法进展和核心场景用体系化、代码化的方式做了一一呈现,让大家能够按图索骥,迅速理清计算机视觉领域的技术脉络,学以致用。
贾扬清
阿里巴巴集团副总裁、高级研究员
图像搜索识别系统开发需要解决哪些问题?深度学习在图像识别领域的前沿技术是什么?数十亿级图像搜索是如何实现的?阿里巴巴拍立淘是如何构建的?这本书给出了答案,是相关领域从业人员不可多得的参考书。
王井东
微软亚洲研究院首席研究员
“拍立淘,用镜头淘世界。”拍一张服装照片,上淘宝用拍立淘功能搜相似款,然后轻松获得优选的心仪服装。我相信很多女生用过拍立淘。拍立淘的负责人、来自达摩院的阿里巴巴集团资深算法专家潘攀(启磐)博士,在本书中与您分享拍立淘这一黑科技背后的图像搜索与识别方法,揭秘精准推荐和高品质搜索背后的技术奥秘。在我看来,由落地产品的一线技术大拿来写这类书,是再合适不过的,因为书中蕴含的是作者对技术和应用场景的深刻理解。读完本书,你能领悟深度学习、机器视觉和“以图搜图”的魅力,强大而有趣。
金小刚
浙江大学二级教授,“十三五”国家重点研发计划首席科学家
深度学习是近几年发展起来的机器学习方法,它的出现使人工智能技术取得了突破性的进展,大幅度提升了许多智能信息处理应用领域的性能。与学术研究关注单一技术不同,深度学习技术在工业界的落地涉及一整套“工程体系”的建立。作者潘攀于2014年在阿里巴巴研制并成功上线了基于深度学习的大规模图像检索技术平台,也就是为人熟知的拍立淘。他从阿里巴巴广阔的商业和数据生态发展中打造基于深度学习的计算机视觉技术的研发演进路线值得每一位研究人员思考。
本书系统地阐述了基于深度学习的计算机视觉技术在工业界的发展历程,相信读者在仔细阅读后一定会有所收获。
胡卫明
中国科学院自动化研究所研究员,国家杰出青年基金获得者,
国家万人计划科技创新领军人才入选者
近年来,高性能并行算力的发展、海量数据的获取和深度学习技术的突破,给人工智能技术走向应用带来了前所未有的机遇。如何体系化地解决实际问题、满足用户真正的需求,实现从算法、工程到产品的有效落地,仍然是当今人工智能创业人员面临的一个重要挑战。拍立淘作为阿里巴巴集团一项成功落地的人工智能产品,其算法实现和系统设计对业界具有良好的借鉴意义。
在本书中,潘攀博士详实介绍了从算法模块到产品的有机整合应用,相信会对人工智能从业人员有所帮助。
黄凯奇
中国科学院自动化研究所研究员,智能系统与工程研究中心主任
潘攀博士是阿里巴巴集团资深算法专家、拍立淘等图像搜索和识别产品的算法和项目负责人,有丰富的研究经验,是计算机视觉技术落地方面的资深专家。
本书以深度学习为主线,涵盖了图像搜索和识别涉及的各种基础技术及实践经验,同时提供了相应的代码;最后一章概要介绍了拍立淘的系统框架,以此说明书中各模块如何互相配合、协调工作。本书特别适合对计算机视觉技术、深度学习技术的应用感兴趣的初学者和相关从业人员。
吴建鑫
南京大学教授
本书针对基于深度神经网络的图像理解研究进行了归纳整理,并且提供了较为详细的代码实现,适合希望了解计算机视觉研究的读者。
俞扬
南京大学教授