生成对抗网络入门指南pdf下载

生成对抗网络入门指南百度网盘pdf下载

作者:
简介:生成对抗网络入门指南
出版社:机械工业出版社
出版时间:2018-10-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

内容简介
  生成对抗网络毫无疑问是2018年最热门的人工智能技术之一,被美国《麻省理工科技评论》评选为2018年“全球十大突破性技术”。《生成对抗网络入门指南》是一本结合基础理论与工程实践的入门型书籍,深入浅出地讲解了生成对抗网络的各类模型以及技术发展。本书面向机器学习从业人员、在校相关专业学生以及具备一定基础的人工智能领域爱好者。通过本书的学习,能够了解生成对抗网络的技术原理,并通过书中的代码实例深入技术细节。本书共分10个章节,其中前半部分分别介绍了目前研究领域已经较为成熟的生成对抗网络模型,比如DCGAN、
目录
前言
第1章 人工智能入门
1.1 人工智能的历史与发展
1.2 机器学习与深度学习
1.3 了解生成对抗网络
1.4 本章小结
第2章 预备知识与开发工具
2.1 Python语言与开发框架
2.2 TensorFlow基础入门
2.3 Keras基础入门
2.4 Floyd:使用深度学习云平台运行程序
2.5 本章小结
第3章 理解生成对抗网络
3.1 生成模型
3.2 GAN的数学原理
3.3 GAN的可视化理解
3.4 GAN的工程实践
3.5 本章小结
第4章 深度卷积生成对抗网络
4.1 DCGAN的框架
4.2 DCGAN的工程实践
4.3 DCGAN的实验性应用
4.4 本章小结
第5章 Wasserstein GAN
5.1 GAN的优化问题
5.2 WGAN的理论研究
5.3 WGAN的工程实践
5.4 WGAN的实验效果分析
5.5 WGAN的改进方案:WGAN-GP
5.6 本章小结
第6章 不同结构的GAN
6.1 GAN与监督式学习
6.2 GAN与半监督式学习
6.3 GAN与无监督式学习
6.4 本章小结
第7章 文本到图像的生成
7.1 文本条件式生成对抗网络
7.2 文本生成图像进阶:GAWWN
7.3 文本到高质量图像的生成
7.4 本章小结
第8章 图像到图像的生成
8.1 可交互图像转换:iGAN
8.2 匹配数据图像转换:Pix2Pix
8.3 非匹配数据图像转换:CycleGAN
8.4 多领域图像转换:StarGAN
8.5 本章小结
第9章 GAN的应用:从多媒体到艺术设计
9.1 GAN在多媒体领域的应用
9.2 GAN与AI艺术
9.3 GAN与AI设计
9.4 本章小结
第10章 GAN研究热点
10.1 评估与优化
10.2 对抗攻击
10.3 发展中的GAN
参考文献
前言
  前言
  生成对抗网络(GAN)毫无疑问是当下热门的人工智能技术之一,被美国《麻省理工科技评论》评为2018年“全球十大突破性技术”。从2014年至今,与GAN有关的论文数量急速上升,网络上有人整理了近年来的GAN模型,截至2018年2月已经有超过350个不同形态的变种,并且数量仍然在持续增加中。在图像生成模型的质量上,生成对抗网络技术可以说实现了飞跃,很多衍生模型已经在一定程度上解决了特定场景中的图像生成问题。此外,诸如文本到图像的生成、图像到图像的生成等应用研究也让工业界与学术界都非常“兴奋”,为人工智能行业带来了非常多的可能性。
  目前网络上关于生成对抗网络的介绍林林总总,越来越多的人对它的出现感到好奇,想知道计算机是如何通过博弈的方法来进行自我优化的。我也曾在知乎上写过一篇介绍性文章,但写完之后总觉得不够尽兴,希望有机会把这个领域相对完整的知识体系呈现在初学者面前,并帮助那些对人工智能技术感兴趣的朋友,让他们尽量少走一些弯路,更直观地了解这个前沿的新兴领域。
  本书面向机器学习从业人员、高校相关专业学生以及具备一定基础的人工智能领域爱好者,书中包含了生成对抗网络的理论知识与项目实践。通过本书的学习,读者可理解生成对抗网络的技术原理,并通过书中的代码实例了解技术细节。本书尽量避免出现需要高性能计算设备才可以运行的项目,希望读者在感受到生成对抗网络的魅力之后,有机会在自己的设备上尝试运行一些项目。只有通过不断实践,才能真正理解生成对抗网络,并将其应用到自己的学习与工作中。
  本书主要内容
  本书共10章。第1章为入门章节,介绍了人工智能领域目前的发展状况,以及生成对抗网络的基本概念及其在整个研究领域中的状况。由于第1章不涉及机器学习与深度学习的理论与实践细节,但在之后的生成对抗网络学习中会用到相关概念,因此希望读者自己补全这些基础知识。
  第2章是编程基础章节,是对机器学习与深度学习编程语言、框架以及工具的介绍,涉及的内容包括Python语言及第三方工具、TensorFlow框架、Keras框架以及深度学习云平台Floyd。如果读者已经具备深度学习领域的编程基础,可以选择性地跳过本章部分内容。
  第3章讨论生成对抗网络的整体理论框架,本书会按照基础概念、理论推导、可视化理解以及具体工程实践的顺序来带领大家认识GAN。最后的代码部分使用TensorFlow实现,由于不会涉及大量的运算,读者可以按照书中的示例直接在笔记本电脑上运行代码,以帮助加深对知识的理解。
  第4章到第6章在原始GAN的基础上介绍各种不同结构,但都是具有标志性特点的GAN。正因为有这样的多样性,才使得该领域一直充满活力。
  第4章介绍基于深度卷积神经网络的生成对抗网络(DCGAN),这是一种在图像生成领域非常流行的框架结构,由于对于卷积层的使用以及一些其他的优化,使得模型在图像生成的时候具有更高的质量。本书会使用Keras框架的代码来搭建面向手写数据集的DCGAN整体框架以及训练代码。在Keras的帮助下,我们可以比较简便地完成整个模型,这也是深度学习框架带来的便利。由于使用了卷积层,在笔记本电脑上运行可能需要花费一些时间,如果希望快速得出结果,读者可以使用第2章介绍的云平台进行云端的GPU运算。最终,这一章还会给出DCGAN的一些创新性应用,这也为之后GAN在多媒体领域的应用打下了基础。
  第5章首先介绍了目前GAN结构存在的问题,并由这个问题出发提出了业界非常著名的模型WGAN。WGAN的理论推导看起来有些复杂,但是最终得出的优化方法却简单得令人吃惊。本章的实践部分是在DCGAN的Keras代码基础上进行修改的,最终读者会发现只需要几处代码调整就可以完成理论上更优的模型设计。这也从另一个侧面反映了理论研究的重要性,只有真正懂得事物背后的道理,才能给出优秀的方案。这一章最后会给出对于WGAN算法本身的改进——WGAN-GP,官方也给出了开源代码,WGAN-GP属于业界比较优秀的方案,大量的论文都拿它作为比较对象。
  第6章涉及一些不同结构的GAN,将它们大致分为三个部分,包括监督式学习、半监督式学习与无监督式学习。在这一章中我们也可以看到GAN各种各样的可能性,比如在有标签的条件式生成对抗网络(cGAN)的帮助下,我们可以根据设定好的标签来进行具体分类图片的生成,而通过无标签生成的InfoGAN可以让隐含编码(latent code)中的每一维都具有实际意义,并通过调节输入的参数对生成内容进行定制。
  第7章与第8章的核心思想建立在条件式GAN研究的基础上,但是方法和网络都做了进一步的改进。第7章为文本到图像的生成,用户只需输入一句话就可以得到想要的图像。而第8章则是用户根据自己提供的图像最终呈现出图像中的理想画面,其中涉及知名的算法Pix2Pix以及CycleGAN等。这些项目的源码大多是开源的,感兴趣的读者可以根据官网或书中提供的方法对这些模型应用进行试验。
  上面的章节大多从理论出发,但是最终都会涉及具体的应用场景。第9章希望为读者更具体地介绍GAN的应用层面,从多媒体领域到艺术与设计领域,展示GAN在这些行业的发展中提供了怎样的帮助。由于GAN还是一项非常“年轻”的技术,因此也希望通过这一章的内容来启发读者,在实际工作与科研过程中进一步思考还有什么更好的应用场景,也许它会成为你使用人工智能技术改变的下一个行业。
  第10章为收尾章节,希望能够为初次学习GAN或者对GAN技术有着浓厚兴趣的读者提供一些行业研究的热点方向。生成对抗网络是当下深度学习领域的研究热点,也是一项正在飞速发展的技术,考虑到内容的时效性,本书网站https://ganbook.org会持续更新科研方向与动态。
  致谢
  首先要感谢学术界数不清的优秀科研人员耕耘在科学技术的前沿,正是他们产出的高质量研究成果以及论文推动着时代的发展,带来了这个全新的人工智能时代。本书也是站在巨人的肩膀上,大量参考了相关的文献材料,没有这些研究者就没有本书的诞生。也要感谢互联网上愿意分享的优秀技术博主和开发者,我从他们的分享中学到了太多太多。感谢开源平台GitHub聚集了数不清的开发者,开源精神让开发变得更加便捷,也让知识传播变得更加高效。
  感谢机械工业出版社华章公司的朱捷先生对我的支持,在我写作的过程中提供了非常多的思路与帮助,正是他对我的认可和鼓励促使我完成本书。感谢蔚馨女士对本书的校对和编辑,并为本书提供了大量高质量的素材。此外也感谢所有为本书的出版付出努力的工作者。
  最后感谢我的父母以及教导我的老师们,是他们的栽培成就了现在的我,在这里再一次感恩他们对我的付出。
  与我联系
  读者可以通过知乎(https://www.zhihu.com/people/shidanqing)与我取得联系,很乐意收到你的私信,并与你进行相关技术的交流。另外我也会维护一个收集读者与专家建议及反馈的网站(https://ganbook.org),一些源码以及未来的技术更新会同步在这个网站上。敬请各位读者与行业专家对本书不足的地方予以批评和指正。
精彩书摘
  1.1 人工智能的历史与发展
  2017年被称为“人工智能元年”,这一年,被称为“人类最后的希望”的围棋天才柯洁与AlphaGo的进阶版Master鏖战三轮,最终以总比分0∶3败于AlphaGo(见图1-1)。这是谷歌DeepMind团队的AlphaGo深度学习的第二次亮相。也是这一年,据PitchBook统计,全球人工智能和机器学习领域共获得风险投资超过108亿美元,而2010年才不足5亿美元。也是这一年,“得AI人才者得天下”,在美国,深度学习领域的人工智能博士生都已被Google、Facebook、亚马逊、微软、英特尔席卷一空,AI人才的起步年薪达到百万。一时间,仿佛身边的人都开始习惯性地讨论几句“人和机器谁更厉害”的话题。
  人工智能的热浪乘风而上,技术圈和投资界欢欣鼓舞,似乎一个可以媲美100年前的电力、20年前的互联网的机会正在到来(见图1-2)。但真正了解这个领域的学术圈却保持镇定,因为这个蛰伏了大半个世纪的复杂学科,早已经历了一次又一次的繁荣与低谷,2017年也许是新一轮的波峰。
  古希腊诗人荷马在公元前8世纪曾描述过“锻造之神”赫菲斯托斯[1],《伊利亚特》史诗中写到他曾经设计并制作了一组金制的女机器人,这些机器人可以帮助他在铁匠铺做事,甚至能开口说话,并完成很多高难度工作。这可能是能够追溯到的最早的人工智能诞生的传说,人们开始想着不再仅仅把创造力放在静物上,而是有自我意识的个体,这是思维的突破,是最本质的变化。
  稍微对人工智能有所了解的人都知道图灵(见图1-3)。艾伦•麦席森•图灵(Alan Mathison Turing),距离我们大半个世纪前的英国数学家,被称为“计算机科学之父”,又被称为“人工智能之父”。至今,图灵奖(A.M.Turing award)作为“计算机界的诺贝尔奖”,依旧是最负盛名、最崇高的奖项。“如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。”这就是里程碑式的人工智能图灵测试。
  其实在图灵测试提出前,其他学科上伟大的突围同样为人工智能学科的建立奠定了坚实的理论基础。人工智能简而言之是打造“人工大脑”,那么有三个问题需要解答。
  •大脑是如何运转的?
  •大脑的运行机制是否可以拆分成差异性极低的可衡量单元?
  •是否有其他人工产物可以等价体现这一单元粒度的价值或功能?
  其中,第二个问题由神经学家揭开谜团,第三个问题由信息学家给出答案,第一个问题至今仍在探索。
  1.1.1 人工智能的诞生
  1872年在意大利的阿比亚泰格拉索疗养院里,29岁的卡米洛•高尔基(Camillo Golgi)在一次意外中创建了铬酸盐-硝酸银染色法。在相隔1300公里的西班牙,一位同样年轻的神经学家圣地亚哥•拉蒙-卡哈尔(Santiago Ramón Y Cajal)借助这种技术,在1888年发表了单个神经细胞存在的证据,由此创建了神经元理论,被后世认为是现代神经科学的起源。这两位在1906年获得了诺贝尔生理学或医学奖。[1]
  神经系统由神经元(见图1-4)这样的基本单位构成,其激励电平只存在“有”和“无”两种状态,不存在中间状态。神经元二元论的观察和电子信号的0和1之间竟有如此美妙的契合度,当然这个时候数字信号的二进制还没有提出。另一个观察是神经信号的传导大多是单向的,由树突到神经元细胞体再到轴突。基于简单的两个规律,神经网络的雏形已经跃然纸上,如果我们现在乘坐“时光机”回去,肯定会站在上帝视角疯狂吼叫:“结合起来!这就是神经网络!我们可以做人造大脑了!”但科学研究的步伐何其艰难,这临门一脚的突破蛰伏了50多年。
精彩插图