第2版新内容
本书第1版出版于2012年,彼时基于Python的开源数据分析库(例如pandas)仍然是一个发展迅速的新事物。在本次更新、拓展的第2版中,我在一些章节内进行了修改,以解释过去5年中发生的不兼容的变更、弃用和一些新特性。此外,我还添加了新内容,用以介绍在2012年还不存在或者不成熟的工具。最后,我会避免把一些新兴的或者不太可能走向成熟的开源项目写入本书。我希望本版的读者能够发现本书内容在2020年或者2021年仍然几乎像在2017年一样适用。
第2版中的主要更新包括:
所有的代码,包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)
更新了Python第三方发布版Anaconda和其他所需Python包的安装指引
更新pandas库到2017年的最新版
新增一章,关于更多高级pandas工具和一些使用提示
新增statsmodels和scikit-learn的简明使用介绍
除了以上更新内容,我还重新组织了第1版的部分重要内容,使本书对新手来说更易于理解。
本书约定
以下印刷约定将在本书中使用:
斜体(Italic)
表示新的术语、URL、email地址、文件名和文件扩展名。
等宽字体(Constant width)
用于程序清单以及段落中的程序元素,例如变量名、函数名、数据库、数据类型、环境变量、表达式和关键字等。
等宽粗体(Constant width bold)
表示命令或其他应当由用户键入的文本。
等宽斜体(Constant width italic)
表示应当由用户提供的值来替代的文本,或者其他由上下文决定的值。
本符号表示提示或建议。
本符号表示一般性说明。
本符号表示警告。
使用代码示例
可以通过本书的GitHub仓库获取本书每一章中的数据文件和相关材料。GitHub仓库地址:http://github.com/wesm/pydata-book。
本书的目的在于帮助你完成工作。一般来说,本书提供的示例代码,你可以在你的程序或文档中使用而无须联系我们获取许可,除非你需要重造大量代码。举例来说,使用本书中的代码段编写程序无须授权许可,但销售或发行O扲eilly图书的CD-ROM代码示例则需要许可。引用本书代码回答问题不需要许可,但在你的产品文档中大量使用本书示例代码则需要许可。
我们鼓励注明资料来源的行为,但这并不是必需的。来源注明通常包括书名、作者、出版社及ISBN,例如:“Python for Data Analysis by Wes McKinney(O扲eilly). Copyright 2017 Wes McKinney, 978-1-491-95766-0”。
如果你认为你对本书示例代码的使用超过了正常使用范围或者需要以上介绍的授权许可,请联系permissions@oreilly.com。
O'Reilly Safari
Safari(前身为Safari Books Online )是一个会员制的培训、参考网站,服务于企业、政府、教育者和个人。
会员可以访问数千书籍、培训视频、学习路径、交互教程和超过250家出版商的企划列表,包括O'Reilly Media、Harvard Business Review、Prentice Hall Professional、 Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Adobe、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett、Course Technology等。
更多信息,请访问http://oreilly.com/safari。
如何联系我们
对于本书如果有任何意见或疑问,请按照以下地址联系本书出版商。
美国:
O'Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
我们为本书准备了一个网页,用于陈列勘误、示例和其他附加信息。访问地址是:http://bit.ly/python_data_analysis_2e。
针对本书评论或提出技术问题,请发送邮件至:bookquestions@oreilly.com。
关于本书的更多信息、课程、会议及新闻,请访问我们的网站:http://www.oreilly.com。
Facebook联系我们:http://facebook.com/oreilly
Twitter联系我们:http://twitter.com/oreillymedia
YouTube观看我们的视频:http://www.youtube.com/oreillymedia
致谢
本书是全世界很多人多年来富有成效的讨论、协作和支持的成果。我想对他们中的一些代表致以谢意。
怀念:John D. Hunter(1968—2012)
我们亲爱的朋友和同行John D. Hunter在经历了一场与结肠癌的战斗后,于2012年8月28日离开了世界。那时正是我完成本书第1版最终手稿后不久。
John对Python科学计算和数据社区的影响之大难以估量,他给我们留下的遗产价值非凡。除了在2000年初期开发matplotlib之外(那时Python还没有当下如此流行),他还帮助塑造了一代核心开源开发者的文化,如今这些开发者已经成为Python生态系统的顶梁柱,而Python生态系统对于现如今的我们来说似乎是理所当然的。
在2010年1月,我开源生涯的早期,那时候pandas刚刚发布了0.1版本,我便有幸结识了John。即便在最黑暗的时期,他的才华和指导仍在帮助我推动pandas前进,实现Python成为数据分析第一语言的愿景。
John与IPython、Jupyter项目的先锋Fernando Pérez、Brian Granger及其他很多Python社区的倡议人联系紧密。我们四人曾经希望共同写作一本书,但只有我个人时间最为自由,所以这个想法被搁置了。我非常确信他会为过去5年中我们个人及我们社区所取得的成就感到骄傲。
第2版致谢(2017)
距离我在2012年7月完成第1版手稿已经5年了。很多事情都发生了变化。Python社区获得了极大的成长,围绕Python的开源软件生态系统也十分繁荣。pandas核心开发者孜孜不倦的付出,使得pandas项目高速成长,也使得pandas的用户群体遍布Python数据科学生态系统的各个角落,没有他们本书将不会存在。pandas的核心开发者包括但不限于:Tom Augspurger、Joris van den Bossche、Chris Bartak、Phillip Cloud、gfyoung、Andy Hayden、Masaaki Horikoshi、Stephan Hoyer、Adam Klein、Wouter、Overmeire、Jeff Reback、Chang She、Skipper Seabold、Jeff Tratner和y-p。
在第2版的实际写作过程中,非常感谢O扲eilly的工作人员在写作进程中给予的耐心帮助。他们是Marie Beaugureau、Ben Lorica和Colleen Toporek。我再次得到了优秀技术审阅人的支持,他们是Tom Augpurger、Paul Barry、Hugh Brown、Jonathan Coe和 Andreas Müller。感谢你们。
本书的第1版已经被翻译成多种语言,包括汉语、法语、德语、日语、韩语和俄语。将本书翻译给外国读者,是一份工作量大且缺少关注的付出。感谢你们帮助全世界更多人士学会如何编程及使用数据分析工具。
在过去几年中,Cloudera 和Two Sigma投资公司对我的持续开源开发工作的支持使我感到十分幸运。由于开源项目相对于用户基数的比例越来越小,向重要开源项目提供开发支持变得越来越重要。这是一件值得去做的正确工作。
第1版致谢(2012)
如果没有众多相关人士的支持,写作本书对我来说将会十分困难。
对于O扲eilly的工作人员,我非常感谢我的编辑Meghan Blanchette和 Julie Steele,他们在整个写作过程对我给予指导。Mike Loukides 还在建议阶段与我一起工作,帮助本书付梓。
我收到了大量相关人士丰富的技术审阅。尤其是Martin Blais 和Hugh Brown ,他们自始至终在提高本书示例的清晰度、组织度上提供了令人难以置信的帮助。James Long、Drew Conway、Fernando Pérez、Brian Granger、Thomas Kluyver、Adam Klein、Josh Klein、Chang She 和 Stéfan van der Walt 每个人都审阅了本书的一章或多章,从很多角度提供了有效反馈。
我从数据社区的朋友和同行那里获得了很多关于示例和数据集的优秀想法,他们是:Mike Dewar、Jeff Hammerbacher、James Johndrow、Kristian Lum、Adam Klein、Hilary Mason、Chang She和Ashley Williams。
当然,我也非常感激开源科学Python社区的众多领头人,他们为我的开发工作打下了基础,并在本书写作过程中给予我鼓励:IPython核心团队(Fernando Pérez、Brian Granger、Min Ragan-Kelly、Thomas Kluyver和其他相关人士)、John Hunter、Skipper Seabold、Travis Oliphant、Peter Wang、Eric Jones、Robert Kern、Josef Perktold、Francesc Alted、Chris Fonnesbeck以及其他由于人数太多而无法提及的人们。还有很多人士一直以来提供了支持、想法和鼓励:Drew Conway、Sean Taylor、Giuseppe Paleologo、Jared Lander、David Epstein、John Krowas、Joshua Bloom、Den Pilsworth、John Myles-White以及很多已经忘了姓名的人士。
我还要感谢前些年生活中的一些人。首先是在AQR的前同事,他们都曾为我在pandas方面的工作喝彩,他们是:Alex Reyfman、Michael Wong、Tim Sargen、Oktay Kurbanov、Matthew Tschantz、Roni Israelov、Michael Katz、Chris Uga、Prasad Ramanan、Ted Square 和 Hoon Kim,以及我的指导教授Haynes Miller(麻省理工学院)和Mike West(杜克大学)。
2014年,我在更新本书代码示例、修正一些由于pandas变更产生的错误时,从Phillip Cloud 和 Joris Van den Bossche 处获得了重要帮助。
个人方面,感谢Casey在写作过程中为我提供了无价的日常支持,忍受我的情绪起伏直到我按计划表写出了最终手稿。最后,感谢我的父母 Bill 和Kim ,他们教会我如何去追寻梦想、永不止步。