《Python自然语言处理实战：核心技术与算法》[39M]百度网盘|亲测有效|pdf下载

书籍详情

Python自然语言处理实战：核心技术与算法
出版社:机械工业出版社自营官方旗舰店
出版时间:2018-06
热度:8133
上架时间:2024-06-30 08:52:20
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

适读人群：1）人工智能相关专业的研究人员；2）信息科学和计算机科学爱好者；3）统计学或相关IT专业学生；4）不具备专业数学知识的人群。

（1）三位作者资历深厚，分别是阿里巴巴的数据架构师和NLP专家、百炼智能的NLP专家（前明略数据的技术合伙人和科学家）、七牛云AI实验室NLP&OCR方向负责人

阿里巴巴、前明略数据和七牛云的资深NLP专家撰写

（2）以实战为导向，绕开各种复杂数学公式与证明，确保读者零基础入门，详细讲解自然语言处理的各种核心技术、方法论和经典算法

（3）阿里巴巴达摩院高级算法专家、百炼智能CEO、七牛云AI LAB负责人、天善智能创始人联袂推荐

内容简介

自然语言处理是一门融语言学、计算机科学、数学于一体的学科，比较复杂，学习门槛高，但本书巧妙地避开了晦涩难懂的数学公式和证明，即便没有数学基础，也能零基础入门。

本书专注于中文的自然语言处理，以Python及其相关框架为工具，以实战为导向，详细讲解了自然语言处理的各种核心技术、方法论和经典算法。三位作者在人工智能、大数据和算法领域有丰富的积累和经验，是阿里巴巴、前明略数据和七牛云的资深专家。同时，本书也得到了阿里巴巴达摩院高级算法专家、七牛云AI实验室Leader等专家的高度评价和鼎力推荐。

全书一共11章，在逻辑上分为2个部分：

第一部分（第1、2、11章）

主要介绍了自然语言处理所需要了解的基础知识、前置技术、Python科学包、正则表达式以及Solr检索等。

第二部分（第5-10章）

第3~5章讲解了词法分析相关的技术，包括中文分词技术、词性标注与命名实体识别、关键词提取算法等。

第6章讲解了句法分析技术，该部分目前理论研究较多，工程实践中使用门槛相对较高，且效果多是依赖结合业务知识进行规则扩展，因此本书未做深入探讨。

第7章讲解了常用的向量化方法，这些方法常用于各种NLP任务的输入。

第8章讲解了情感分析相关的概念、场景以及一般做情感分析的流程，情感分析在很多行业都有应用。

第9章介绍了机器学习的重要概念，同时重点突出NLP常用的分类算法、聚类算法，还介绍了几个案例。

第10章节介绍了NLP中常用的一些深度学习算法，这些方法比较复杂，但是非常实用，需要读者耐心学习。

作者简介

涂铭：

阿里巴巴数据架构师，对大数据、自然语言处理、Python、Java相关技术有深入的研究，积累了丰富的实践经验。曾就职于北京明略数据，是大数据方面的高级咨询顾问。

在工业领域参与了设备故障诊断项目，在零售行业参与了精准营销项目。在自然语言处理方面，担任导购机器人项目的架构师，主导开发机器人的语义理解、短文本相似度匹配、上下文理解，以及通过自然语言检索产品库，在项目中构建了NoSQL+文本检索等大数据架构，也同时负责问答对的整理和商品属性的提取，带领NLP团队构建语义解析层。

刘祥：

百炼智能自然语言处理专家，主要研究知识图谱、NLG等前沿技术，参与机器自动写作产品的研发与设计。

曾在明略数据担当数据技术合伙人兼数据科学家，负责工业、金融等业务领域的数据挖掘工作，在这些领域构建了诸如故障诊断、关联账户分析、新闻推荐、商品推荐等模型。

酷爱新技术，活跃于开源社区，是Spark MLlib和Zeppelin的Contributor。

刘树春：

七牛云高级算法专家，七牛AI实验室NLP&OCR方向负责人，主要负责七牛NLP以及OCR相关项目的研究与落地。在七牛人工智能实验室期间，参与大量NLP相关项目，例如知识图谱、问答系统、文本摘要、语音相关系统等；同时重点关注NLP与CV的交叉研究领域，主要有视觉问答（VQA），图像标注（Image Caption）等前沿问题。

曾在Intel DCSG数据与云计算部门从事机器学习与云平台的融合开发，项目获得IDF大奖。硕士就读于华东师范大学机器学习实验室，在校期间主攻机器学习，机器视觉，图像处理，并在相关国际会议发表多篇SCI/EI论文。

精彩书评

　　本书从各个方面着手，帮助读者理解NLP的过程，提供了各种实战场景，结合现实项目背景，帮助读者理解NLP中的数据结构和算法以及目前主流的NLP技术与方法论，结合信息检索技术与大数据应用等流行技术，完成对NLP的学习和掌握。
　　——黄英阿里巴巴达摩院高级算法专家

　　目前市面上的NLP书籍，要么是针对研究人员的偏理论性的教科书，要么是针对资深工程师进一步深入了解NLP技术的高级读物。为了填补这一空白，三位来自工业界的资深NLP专家，结合真实的项目，让读者能够以很快的速度掌握NLP技术的精髓。同时，穿插大量练习，可以帮助读者反复练习课本中的知识点。所有这些内容，都是为了让读者能够解决工作中遇到的实际问题，而不仅是纸上谈兵。本书通俗易懂、操作性强。
　　——冯是聪博士百炼智能创始人兼CEO/人工智能与信息检索专家

　　本书作者通过对现有的NLP技术以及新兴的深度学习方法进行梳理和总结，形成了自己的NLP知识体系。本书在内容上平衡了理论和技术，在每章的理论之后都配备了实践课，便于读者通过动手加深理解，避免成为只会夸夸其谈的NLP理论“专家”。本书可以帮助研究者，特别是初学者，加强对NLP的理论与技术的学习，授人以鱼的同时授人以渔，帮助读者灵活解决实际工作当中遇到的各种NLP问题。
　　——林亦宁七牛云AI实验室Leader/10余年人工智能和深度学习研究

　　技术的发展和普及，离不开教育的推动，从商业智能到大数据，再到如今的人工智能，莫不是如此。华章是IT技术图书出版领域的领军者，天善智能是IT技术在线教育领域的佼佼者，我们都在为推动IT技术在中国甚至是世界范围内的发展贡献力量。华章与天善智能结成了非常重要的战略合作伙伴关系，本书是双方合作的一本书，后续还会有更多的作品出版，希望能对大家有所帮助。
　　——周剑天善智能联合创始人&咨询总监

精彩书摘

序　　一

不知不觉间，我们已经进入了“人工智能”时代，如今随处可见基于自然语言处理技术的聊天机器人，回想以前都是靠人工服务，现在都依靠机器人回答大部分的常见问题了。

过去几年，深度学习架构和算法在图像识别和语音处理等领域取得了重大的进步。而在NLP（自然语言处理）领域，起初并没有太大的进展。不过现在，NLP领域取得的一系列进展已证明深度学习技术将会对自然语言处理做出重大贡献。一些常见的任务如实体命名识别，词类标记及情感分析等，NLP都能提供最新的结果，并超越了传统方法。另外，在机器翻译领域的应用上，深度学习技术所取得的进步应该是最显著的。

记得在上学期间感觉NLP这个领域很新鲜、很空白，决定尝试做一下，读完博士，感觉NLP比我最初接触时理解的NLP更新鲜，更值得挖掘。NLP很多问题都没有正式定义，或者说很难用统一的标准去训练机器、很难搞 benchmark dataset，这可能也是AI的一大挑战。

我认为现在比较成熟的AI方向都是相对确定的。比如语音识别，拿来一段语音，就知道说的是什么话；比如vision，猫的照片就是猫，这个人脸的照片就是这个人。NLP有一些问题就没这么明确。比如文本摘要，到底哪一个摘要是最好的呢？机器翻译，到底哪一个译文是最好的呢？复杂一些的情感分析，这篇报道的作者到底有没有在暗讽这个人？如果一个问题有明确的答案，比如Waston——专门参加开心辞典回答问题，算法训练起来轻松一些。但如果一个问题本身的答案并无明确的高下之分，那算法也无可奈何。

定义新问题，以较小的代价搜集新的数据集，开发新的evaluation method，这些与研究新算法一样有趣、有挑战性。举个简单的例子。我们想让机器自动识别出来讽刺的语气，那么去哪里找讽刺的话呢？我们有现成的分析情感的工具，再利用这些有#sarcasm标签的推文，可以训练一个识别“什么情况是倒霉情况”的分类器。以后就可以用这个倒霉识别器去识别没有标签的讽刺句子了，bootstrap一下把数据集搞大，这就是一个最初级的讽刺方面的数据集。

NLP圈里很多人喜欢搞新的数据集，这个现象有利有弊，但这说明了有很多空白问题需要定义，有很多空白资源需要创建。本书从各个方面着手，帮助读者理解NLP的过程，提供了各种实战场景，结合现实项目背景，帮助读者理解NLP中的数据结构和算法以及目前主流的NLP技术与方法论，结合信息检索技术与大数据应用等流行技术，最终完成对NLP的学习和掌握。

阿里巴巴达摩院高级算法专家　黄英

2018年1月17于杭州

序　　二

近年来，几乎整个人工智能界的研究者们都注意到一个技术名词——自然语言处理（NLP）。NLP作为人工智能领域的一个重要分支，现在已经发展成为人工智能研究中的热点方向。最近几十年来，随着软硬件协同发展，数据爆炸性增长，信息过载的问题越来越严重，全部依赖人来分析和驱动的传统方式，面对海量信息的局面显得越来越捉襟见肘。这样的情况下，能够自动化处理大规模文本相关的数据的NLP，即将成为未来人工智能发展技术的新趋势和方向。

自然语言处理作为机器学习与语言学、统计学等的综合学科，不仅知识内容多，发展迅速，而且非常依赖于工程能力。目前，统计学以及数据驱动的方法在NLP中占据着统治地位。同时，最近几年深度学习不断被引入NLP领域，越来越多的知识需要读者去学习。这时候急需一本能够从全局梳理NLP的书籍，帮助NLP学习者快速入门。传统的NLP书籍对于具体问题的方法讲解有足够的思路，但是要么是基于英文语料的讲解，要么通篇都是理论，面对复杂的中文语料环境缺乏实践性。

本书的作者通过对前人传统NLP技术以及新兴的深度学习方法深入梳理，形成自己理解的NLP解决之道。本书在内容上平衡了理论和技术，在每章的理论之后都配备了实践课，方便读者能够动手加深理解，避免成为只会夸夸其谈的NLP理论“专家”。本书可以帮助研究者，特别是初学者，加强对NLP的理论与技术的学习，授人以鱼的同时授人以渔，帮助读者灵活解决实际工作当中遇到的各种NLP问题。

七牛云AI实验室Leader，10余年人工智能和深度学习研究　林亦宁

查看全部↓

前言/序言

为什么要写这本书

这是一本关于中文自然语言处理（简称NLP）的书，NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学。本书偏重实战，不仅系统介绍了NLP涉及的知识点，同时也教会读者如何实际应用与开发。围绕这个主题，本书从章节规划到具体的讲述方式，具有以下两个特点：

第一个特点是本书的主要目标读者定位为高校相关专业的大学生（统计学、计算机技术）、NLP爱好者，以及不具备专业数学知识的人群。NLP是一系列学科的集合体，其中包含了语言学、机器学习、统计学、大数据以及人工智能等方面，尤其依赖数学知识才能深入理解其原理。因此本书对专业知识的讲述过程必须绕过复杂的数学证明，从问题的前因后果、创造者思考的过程、概率或几何解释代替数学解释等一系列迂回的路径去深入模型的本源，这可能多少会牺牲一些严谨性，但是却能换来对大多数人更为友好的阅读体验。

第二个特点是本书是一本介绍中文自然语言处理的书，中文分词相对于英文分词来说更为复杂，读者将通过例子来学习，体会到能够通过实践验证自己想法的价值，我们提供了丰富的来自NLP领域的案例。在本书的内容编制上，从知识点背景介绍到原理剖析，辅以实战案例，所有的代码会在书中详细列出或者上传Github方便读者下载与调试，帮助读者快速上手掌握知识点，同时可以应用到后续实际的开发项目中。在实际项目章节中，选取目前在NLP领域中比较热门的项目，将之前的知识点进行汇总，帮助读者巩固与提升。本书难度适中属于入门和扩展级读物。

读者将学到什么

如何用NLP 与语言学的关键概念来描述和分析语言

NLP 中的数据结构和算法是怎样的

自然语言处理目前主流的技术与方法论

信息检索技术与大数据应用

读者对象

1）统计学或相关IT专业学生

本书的初衷是面向相关专业的学生——大量基于理论知识的认知却缺乏实战经验的人员，让其在理论的基础上深入了解。通过本书，学生可以跟随本书的教程一起操作学习，达到对自己使用的人工智能工具、算法和技术知其然亦知其所以然的目的。

2）信息科学和计算机科学爱好者

本书是一部近代科技的历史书，也是一部科普书，还可以作为一部人工智能思想和技术的教科书去阅读。通过本书可以了解到行业先驱们在探索人工智能道路上所做出的努力和思考，理解他们不同的观点和思路，有助于开拓自己的思维和视野。

3）人工智能相关专业的研究人员

本书具体介绍了NLP相关知识。通过本书可以了解理论知识，了解哪些才是项目所需的内容以及如何在项目中实现，能够快速上手。

如何阅读本书

本书内容针对NLP从以下几个方面进行阐述：

第一部分的内容包括第1、2、11章，主要介绍了NLP所需要了解的Python科学包、正则表达式以及Solr检索。

第二部分的内容包括第5～10章的内容，主要是介绍NLP相关的各个知识点。分别是：

第3～5章主要介绍了词法分析层面的一些技术，这一部分是NLP技术的基础，需要读者熟练掌握。

第6章介绍了句法分析技术，该部分目前理论研究较多，工程实践中使用门槛相对较高，且效果多是依赖结合业务知识进行规则扩展，因此本书未做深入探讨，读者了解即可。

第7章介绍了常用的向量化方法。这些方法常用于各种NLP任务的输入，读者需重点掌握。

第8章介绍了情感分析相关的概念、场景以及一般做情感分析的流程，情感分析在很多行业都有应用，所以需要读者熟练掌握。

第9章介绍了机器学习的一些基本概念，重点突出NLP常用的分类算法、聚类算法，同时还介绍了几个案例，这章是NLP的基础内容，需要重点掌握。

第10章介绍了NLP中常用的深度学习算法，这些方法比较复杂，但是非常实用，需要读者耐心学习。

除了以上内容外，以下信息是在本书中涉及特定内容的解释和说明：

内容延伸。本书每个章节都有一定的内容延伸章节，其内容是对于有兴趣深入研究的读者推荐的资料或进一步了解的知识点，由于每个主题都涵盖很多内容，因此本书仅在内容延伸中抛砖引玉，有兴趣的读者可以加以了解和学习。

相关知识点。本书很多章节中都有“相关知识点”的内容介绍，其对特定工具、知识、算法、库等方面做了较为详细的介绍，它们是本书的知识堡垒。

本章小结。每章的结尾都有“本章小结”，在小结中包含4部分内容。

内容小结。内容小结是有关本章内容的总结。

重点知识。重点知识是本章重点需要读者掌握的知识和内容。

外部参考。外部参考是本章提到过但是无法详细介绍的内容，都在外部参考中列出，有兴趣的读者可以基于比构建自己的知识图谱。

应用实践。基于本章内容推荐读者在实践中落地的建议。

提示。对于知识点的重要提示和应用技巧，相对“相关知识点”而言，每条提示信息的内容量较少，一般都是经验类的总结。

注意。特定需要引起注意的知识，这些注意点是应用过程中需要避免的“大坑”。

关于附件的使用方法

除了第1章外，本书的每一章都有对应源数据和完整代码，该内容可在本书中直接找到，有些代码需要从Github下载，地址是https://github.com/nlpinaction/learning-nlp。需要注意的是，为了让读者更好地了解每行代码的含义，笔者在注释信息中使用了中文标注，且每个程序文件的编码格式都是UTF-8。

勘误和支持

由于笔者水平有限，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正。读者可通过以下途径联系并反馈建议或意见：

即时通讯。添加个人微信（kennymingtu）反馈问题。

电子邮件。发送E-mail到kenny_tm@hotmail.com。

致谢

在本书的撰写过程中，得到了来自多方的指导、帮助和支持。

首先要感谢的是机械工业出版社华章公司的杨福川编辑，他在本书出版过程中给予我极大的支持和鼓励，并为此书的撰写提供了方向和思路指导。

其次要感谢黄英和周剑老师在自然语言处理项目和工作中提供的宝贵经验和支持。

再次要感谢全程参与审核、校验等工作的张锡鹏、孙海亮编辑以及其他背后默默支持的出版工作者，是他们的辛勤付出才让本书得以顺利面世。

最后感谢我的父母、家人和朋友，使得我有精力完成本书的编写。

谨以此书献给热爱数据工作并为之奋斗的朋友们，愿大家身体健康、生活美满、事业有成！

涂铭

2018年1月于上海

书籍初成，感慨良多。

在接受邀请撰写本书时，从未想到过程如此艰辛。

感谢我的女友和家人的理解与支持，陪伴我度过写书的漫长岁月。

感谢我的合著者——涂铭和刘树春，与他们合作轻松愉快，给予我很多的理解和包容。

感谢参与审阅、校验等工作的孙海亮老师等出版社工作人员，是他们在幕后的辛勤付出保证了本书的出版成功。

再次感谢一路陪伴的所有人！

刘祥

2018年1月于北京

首先要感谢我的两位合作者——涂铭和刘祥，能够相聚在一起写书是缘分。当初聊到出版NLP入门书籍的想法时我们一拍即合，然而真正开始执笔才发现困难重重，业余时间常常被工作挤占，进度一拖再拖，在伙伴们的支持下，克服了拖延症，顺利完成本书。

特别感谢我的爱人和家人的悉心照料和支持。

感谢孙海亮老师、张锡鹏老师等出版社工作人员，没有他们的辛劳付出就没有本书保质保量的完成。

最后感谢帮我校稿的林博、谢雨飞、陈敏，谢谢他们在生活和工作上给我的支持与帮助。

最后，祝大家学习快乐。

刘树春

2018年1月于上海

查看全部↓

相关推荐

Python数学编程

联邦学习实战

数据结构与算法之美王争书籍

Python自然语言处理实战：核心技术与算法