挖掘大数据风行一时,但数据挖掘是人为,而非智能。计算机并没有区分好坏数据所需的人类判断力,没有分辨有理有据的和虚假伪造的统计学模型所需的人类智能。在人工智能时代我们如何合理利用数据和科技而不是盲目相信,本书为你揭晓答案。
书名:错觉
定价:58.00元
作者:加里史密斯
出版社:中信出版集团
出版日期:2019-11
页码:335
装帧:平装
开本:32开
ISBN:9787521709957
在人工智能异常火爆的,本书另辟蹊径,从反面探讨了AI研究中存在的一系列问题。开创性地提出了“得州神枪手谬误”和“史密斯测试”等来批判那些先有数据后有理论和模型的科学研究方式——数据挖掘。如今大数据、坏数据、假数据充斥着我们的生活,数据挖掘以相关关系取代了因果关系,AI到底是真的有智能还是只在服从?本书为你解答。
在人工智能异常火热的,很多人认为我们生活在一个不可思议的历史时期,人工智能和大数据可能比工业更能改变人的一生。然而这种说法未免言过其实,我们的生活确实可能有所改变,但并非是朝好的方面发展。我们过于武断地认为计算机搜索和处理堆积如山的数据时不会出差错,但计算机只是擅长收集、储存和搜索数据,它们没有常识或智慧,不知道数字和词语的意思,无法评估数据库中内容的相关性和有效性,它们没有区分真数据、假数据和坏数据所需的人类判断力,没有分辨有理有据和虚假伪造的统计学模型所需的人类智能。
计算机挖掘大数据风行一时,但数据挖掘是人为而非智能,也是非常艰巨、危险的人工智能形式。数据挖掘先是通过大量的数据走势、相关关系来发现让我们内心愉悦却无实践价值的模型,然后创造理论来解释这些模型。作者通过“史密斯测试”和“得州神枪手谬误”等实例说明,如果你挖掘和拷问数据的时间够长、数量够大,你总能得到自己想要的结果,然而这是相关关系却并不是因果关系,只是自我选择偏好,并没有理论基础也没有实用价值。
在人工智能时代,我们对计算机的热爱不应该掩盖我们对其局限性的思考,真正的危险不是计算机比我们更聪明,而是我们认为计算机具有人类的智慧和常识,数据挖掘就是“知识发现”,从而信任计算机为我们做出重要决定。更多的计算能力和更多的数据并不意味着更多的智能,我们需要对人类的智慧有更多的信心。
引言/007
第1章智能还是服从
井字游戏/008
跳棋/011
第2章盲从
思考之源和思维之火/024
计算机是超人吗?/031
将时间考虑在内/036
识别像素与产生情绪/037
批判性思维/039
图灵测试/041
第3章无语境的符号
翻译软件与理解语言/052
威诺格拉德模式挑战赛/057
计算机能阅读吗?/058
计算机能写作吗?/061
在语境中理解事物/066
猫与花瓶/071
第4章坏数据
自我选择偏好/077
相关系数并非因果关系/084
时间的力量/087
幸存者偏差/088
假数据/090
识别“坏数据”/092
第5章随机性模式
数据挖掘/102
黑匣子/107
大数据、大电脑、大麻烦/109
利益冲突/111
天生就会被骗/113
为模型所惑/114
第6章如果你拷问数据的时间足够长
孟德尔的豌豆研究/128
得州神枪手谬误/130
数据挖掘者/132
拷问数据/135
倒摄回忆/137
金钱启动效应/139
寻找就会发现/143
微笑曲线/149
从卓越降为/154
攻击性和吸引力/157
达特茅斯三文鱼研究/159
骗子,骗子/161
第7章无所不包的“厨房水槽法”
预测总统大选/168
非线性模型/180
第8章新瓶装旧酒
逐步回归法/187
岭回归法/189
数据规约/193
神经网络算法/196
被数学蒙蔽双眼/199
第9章先吃两片阿司匹林
明早再给我打电话/204
我要再喝一杯咖啡/207
远程治疗/208
癌症群/211
有理有据的疗法失效了/214
疾病诊断和治疗中的数据挖掘/217
糟糠过多,精粹不足/220
第10章完胜股市(上)
噪声/224
滑稽的理论/226
技术分析/230
抛硬币/235
《每周华尔街》的十项技术指标/237
推特,推特/242
技术大师/243
为乐趣和盈利投资的黑匣子/247
第11章完胜股市(下)
股市与天气/252
预留方案/259
真正的数据挖掘/264
趋同交易/265
高频交易/276
底线/281
第12章我们都在监视着你
妊娠预测指标/289
谷歌流感/291
机器人测试仪/293
就业申请/295
招聘广告/298
贷款申请/300
汽车保险/303
社会信用评分/305
黑匣子式歧视/306
不合理的搜查/307
看看你的手环/310
你需要整容吗?/312
摆弄/316
共同毁灭原则/319
结语/323
参考文献/329
加里·史密斯是波莫纳学院的经济学教授。他在耶鲁大学获得经济学博士学位。他曾两次获得教学奖,并撰写(或与他人合著)80多篇学术论文和12本书。他的研究曾被彭博广播网、CNBC、BrianLehrer、福布斯、纽约时报、华尔街日报、《新闻周刊》和《商业周刊》等媒体报道。
《危险边缘》是一档热门的电视智力竞赛节目,有多个版本,开播至今已有50多年。该节目的比赛内容为百科知识问答,其巧妙之处在于:参赛者要根据以答案形式提供的各种线索,给出与这个答案相对应的问题。例如,线索是“美国第16任总统”,正确的问题就是:“谁是亚伯拉罕·林肯?”每期节目均有三名参赛者,以摁按钮的方式口头抢答(除了后一轮“危险边缘”以外,在其他环节三名参赛者均有30秒时间书写作答)。
从很多方面来看,这档节目都适合计算机参与,因为计算机能准确无误地存储和检索大量信息。在《危险边缘》青少年组比赛中,一名男孩因将“谁是安尼·弗兰克”误写成“谁是安妮·弗兰克”而痛失。而计算机就不会犯这样的。
另外,线索有时通俗易懂,有时却晦涩难解。例如,线索是“把它打进去,你就输了比赛”,对只是资料库的计算机来说,很难得出以下正确问题:“什么是(台球)母球?”
还有一个难解的线索是:“翻译时,这支大联盟棒球队的名字会重复一次。”正确问题为:“什么是洛杉矶天使队?”(WhatistheLosAngelesangels?)
2005年,15名IBM(商用机器公司)的工程师合作设计了一款能与《危险边缘》佳玩家同台对擂的计算机,取名“沃森”,以纪念IBM的首任CEO(首席执行官)托马斯·J.沃森。沃森在1914年接手IBM时,IBM还只是一家仅有1300名员工、年收入不足500万美元的小公司,到了1956年他去世的时候,IBM已经发展成为一家有7.25万名员工、年收入9亿美元的公司。
“沃森”程序存储了相当于2亿页纸的内容,每秒可处理相当于100万本书的信息。除了拥有海量内存和高速处理能力外,“沃森”还能理解自然语言,使用语音进行交流。与罗列相关文档或网站的搜索引擎不同,“沃森”可按照程序并根据线索得出具体答案。
“沃森”运用数百个软件程序,先识别线索中的关键字和词组,再与海量数据库中的关键字和词组相匹配,后得出合理答案。按照编好的程序,如果线索是某个名字(如亚伯拉罕·林肯),“沃森”就会写出以“谁是”开头的问题;如果线索为某一事件,它就会写出以“什么是”开头的问题。单个软件程序与某个答案的一致性越高,“沃森”就越能确定此为正确答案。
该程序能轻而易举地得出与“美国第16任总统”这么直白的线索对应的问题,但要处理有多重含义的词语时就有些困难了,比如,线索是“把它打进去,你就输了比赛”之类的问题。但是,“沃森”不会感到紧张,也绝不会遗忘。
2008年,“沃森”做好了参加《危险边缘》的准备,但还有些问题需要协商。IBM团队担心该节目的工作人员会使用包含双关语和具有双重含义的线索,给“沃森”下圈套。这一担心也恰好揭示了人类与计算机的巨大差异。人类可以根据语境理解词义,所以能理解双关语、笑话、谜语和讽刺批评。而目前的计算
机,充其量只能检查出数据库中是否含有双关语、笑话、谜语或讽刺批评。
对此,节目工作人员同意随机抽取以往编写但未使用的线索。而节目工作人员也担心,如果“沃森”一得到答案就可以发出电子信号,会比必须通过摁按钮来答题的参赛者更有优势。对此,IBM团队同意给“沃森”装根电子手指来摁按钮,但它还是比人类快,这也让“沃森”占据决定性优势。摁按钮快算是聪明的体现吗?如果“沃森”的反应速度降为与人类的一致,比赛结果又会如何?
接下来,在2011年的人机大战中,“沃森”与《危险边缘》的两名前肯·詹宁斯和布拉德·鲁特展开了两轮比赛。首轮比赛“危险边缘”的线索是:
它的机场以第二次世界大战的英雄命名,
它的第二大机场以第二次世界大战的战役命名。
两名前给出的问题为:“芝加哥是什么?”而“沃森”给出的问题是:“多伦多是什么?????”显然,“沃森”识别出了“的机场”、“第二次世界大战的英雄”和“第二次世界大战的战役”这些词组,然后在其数据库中查找相同主题,但没能理解线索的第二部分(“它的第二大”)指的是该市的第二大机场。“沃森”给问题添加了多个问号,因为它计算出的这一答案的正确概率仅为14%。
尽管如此,“沃森”还是以77147美元轻松获胜,詹宁斯和鲁特的赛果分别为24000美元和21600美元。“沃森”夺得了100万美元的奖金(IBM将其捐赠给了慈善机构),詹宁斯和鲁特也各自将奖金的一半捐赠给了慈善机构。“沃森”在《危险边缘》的取胜是一次价值数百万美元的宣传良机。在获得艳惊四座的胜利后,IBM宣称,相比在《危险边缘》中与主持人亚历克斯·特雷贝克较量,“沃森”的问答技能将运用于更重要的领域。IBM一直将“沃森”应用于、银行、技术支持以及其他能利用庞大的数据库来解决具体问题的领域。
对许多人来说,“沃森”击败《危险边缘》的两名前无疑证明强大的“沃森”无所不知!计算机比人类更聪明,我们应该依靠它,相信它的决策。也许我们还应该担心,计算机会在不久的将来征服甚至消灭人类。
“沃森”真的比我们聪明吗?它的胜利恰恰反映了计算机的优势和弱点。作为能力的搜索引擎,“沃森”可以在其庞大的数据库中快速查找单词和短语(它还有可以快速点触的电子手指)。我之所以没有使用“解读”这个词,是因为“沃森”并不了解那些单词和短语的含义,比如“第二次世界大战”和“多
伦多”,它也不明白语境中的词义,比如“它的第二大”。“沃森”的实力被过分夸大了,正如很多电脑程序一样,它的智能不过是假象罢了。
从很多方面来说,“沃森”的表现就是骗人的把戏,只不过是在范围极小的某些技能上看似具有超人的发挥罢了。设想有一个不懂英语,但有无限时间翻阅大型文库(藏有2亿页英语单词和短语)找出匹配单词和短语的人。我们会认为这个人聪明吗?计算机仅因能比人类更快地进行搜索匹配,就说明它聪明绝顶吗?
连IBM“沃森”团队负责人戴夫·费鲁奇也坦承:“我们在开发‘沃森’,设法让其仿造人类认知时,有坐下来好好谈过吗?根本没有。我们不过是想发明一台可以在《危险边缘》中获胜的机器而已。”
计算机不仅击败了《危险边缘》中的人类玩家,还击败了跳棋、象棋和围棋的世界,这助长了人们认为计算机比聪明的人类还要聪明的普遍观念。想要玩好这些战略型棋盘游戏,仅靠匹配单词和短语的强大搜索引擎是远远不够的,还要能分析棋盘格局、制定创意策略、做到未雨绸缪。这难道不是真正的智能吗?