数据挖掘(DataMining),是指从数据中发现知识的过程(KnowledgeDiscoveryinDatabases,KDD)。狭义的数据挖掘一般指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含其中的、人们事先不知道的、但又是潜在有用知识的过程。自从计算机发明之后,科学家们先后提出了许多优秀的数据挖掘算法。2006年12月,在数据挖掘领域的权威学术会议theIEEEInternationalConferenceonDataMining(ICDM)上,科学家们评选出了该领域的十大经典算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、NaiveBayes和CART。这是数据挖掘学科的一个重要里程碑,从此数据挖掘在理论研究和实际应用两方面均进入飞速发展时期,并得到广泛关注。
在实际生产活动中,许多问题都可以用数据挖掘方法来建模,从而提升运营效率。例如,某企业在其移动终端应用(App)上售卖各种商品,它希望向不同的客户群体精准推送差异化的产品和服务,从而提升销售业绩。在这个案例中,如何将千万量级的客户划分为不同的客户群体,可以由数据挖掘中的聚类分析算法来完成;针对某个客户群体,如何判断某个产品是否是他们感兴趣的,可以由数据挖掘中的分类分析算法来完成;如何发现某个客户群体感兴趣的各种产品之间的关联性,应该把哪些产品打包为套餐,可以由数据挖掘中的关联分析算法来完成;如何发现某个客户群体的兴趣爱好的长期趋势,可以由数据挖掘中的回归算法来完成;如何综合考虑公司的KPI指标、营销政策和App页面限制等条件,制订最终的落地营销方案,可以基于数据挖掘中的ROC曲线建立数学模型求得最优解来解决。
当前,许多企业正面临前所未有的竞争压力。以运营商企业为例,从政策层面看,国家提出了“提速降费”的战略指示:一方面要提高网络连接速度、提供更好的服务,这意味着公司成本的提高;另一方面要降低资费标准,这意味着单个产品收入的下降,运营商该如何化解这对矛盾?从运营商内部数据统计看,传统的语音和短信、彩信业务收入占比正不断下降,传统的利润点已经风光不再;流量收入目前已占据主要位置并保持上涨趋势,但单纯的流量经营又将面临“管道化”压力;未来的利润增长点要让位于被称为“第三条曲线”的数字化服务。运营商该如何经营这一新鲜事物?从外部环境看,互联网和电子商务企业借助其在各方面的优势,已经对运营商形成了巨大的压力,特别是在数字化服务营销领域,传统运营商企业已经不再具备优势,又该如何应对互联网企业的全面竞争?
随着移动互联网和物联网时代的来临,人和万事万物被广泛地联系在一起。人们在联系的过程产生了大量的数据,例如用户基础信息、网页浏览记录、历史消费记录、视频监控影像,等等。据此,以Google为首的互联网公司提出了“大数据”(BigData)的概念,并声称人类已经脱离了信息时代(InformationTime,IT),进入了大数据时代(DataTime,DT)。显然,海量数据包含了非常丰富的浅层次信息和深层次知识。对于同一竞争领域的企业,谁能获取最大量的数据,展开最精准的数据挖掘与建模分析,并加以精细化的落地实施,谁便能在行业竞争中取得优势。对于运营商企业而言,其具备的一个显著优势便是手握海量数据资源。如果能运用先进的数据挖掘技术找出客户的行为规律,从传统的经验式、粗放式、“一刀切”式的运营决策向数据化、精细化、个性化的运营决策转型,运营商将迎来新的腾飞。上述运营模式转型的目标,便是所谓的“智慧运营”。
目前,人类对大数据尚没有统一的、公认的定义,但几乎所有学者和企业都认同大数据具备四大特征(四大挑战):体量巨大(Volume)、类型繁多(Variety)、价值密度低(Value)、需要实时处理(Velocity)。这其中最重要的一点是类型繁多,即过去人类的数据储备以结构化数据为主,而未来将以非结构化数据为主。回到之前提到的App营销案例,企业基于用户的基础信息、历史消费信息、简单的网络行为信息等结构化数据展开挖掘建模,被认为是传统的“基于数据挖掘的智慧运营”。随着时代的发展,企业还掌握了用户观看在线视频的内容数据、在营业网点接受营业员推荐的表情信息和语言交流数据、用户在客服热线中的语音咨询数据等。这些数据被统称为非结构化数据,随着语音识别、人脸识别、语义识别等新技术的发展成熟,对非结构化数据的分析挖掘已成为可能,并将获得广阔的商业应用空间。基于非结构化数据的挖掘建模又被称为“基于人工智能的智慧运营”。考虑当前大部分企业的实际运营现状,本书将主要围绕“基于数据挖掘的智慧运营”展开讨论,“基于人工智能的智慧运营”将在后续书籍中展开讨论。
本书共分为九章:第1章大数据、数据挖掘与智慧运营综述,讲述数据挖掘的基本概念和发展史、大数据的时代特征、当前结构化数据挖掘进展、非结构化数据挖掘