内 容 提 要 机器学习是人工智能研究领域中的一个极其重要的方向。在现今大数据时代的背景下,捕获数据并从 中萃取有价值的信息或模式,使得这一过去为分析师与数学家所专属的研究领域越来越为人们瞩目。 本书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效可复用的 Python 代码阐 释如何处理统计数据,进行数据分析及可视化。读者可从中学到一些核心的机器学习算法,并将其运用于 某些策略性任务中,如分类、预测及推荐等。 本书适合机器学习相关研究人员及互联网从业人员学习参考。 ◆ 著 译 责任编辑 执行编辑 责任印制 [美] Peter Harrington 李 锐 李 鹏 曲亚东 丁晓昀 李 鑫 龚 雪 焦志炜 ◆ 人民邮电出版社出版发行 斌 北京市崇文区夕照寺街14号 邮编 100061 网址 http://www.ptpress.com.cn 北京 电子邮件 王 [email protected] 印刷 ◆ 开本:800×1000 1/166 印张:20.75 字数:490千字 印数:1 — 4 000册 著作权合同登记号 2013年 6 月第 1 版 2013年 6 月北京第 1 次印刷 图字:01-2012-4878号 定价:69.00元 读者服务热线:(010)51095186转604 印装质量热线:(010)67129223 反盗版热线:(010)67171154 广告经营许可证:京崇工商广字第 0021 号 错误!文档中没有指定样式的文字。 3 1 2 3 4 致约瑟夫与米洛。 5 6 7 8 9 10 IV 译 者 序 译 者 序 这是我翻译的第三本书了,前两本分别是《信息检索导论》和《大数据:大规模互联网数据 挖掘与分布式处理》 。与图灵公司有了这两次合作后,我们一直保持着十分密切的联系。2012年 11月,图灵的编辑和我说,这本书的原译者不能继续翻译了,问我能否续译后面的十二章。我翻 阅了一下,觉得这本书不错,能帮助不少人,于是很快就接下了这个翻译任务,并在11月底启动 了我的第三次图灵翻译之旅。 我翻译的这三本书分别涉及信息检索、数据挖掘和机器学习。虽然这几个领域各不相同,但 是它们之间有着十分密切的关联。简单地说,机器学习算法在包含信息检索和数据挖掘在内的多 个领域中都有着十分广泛的应用。现代互联网中的搜索引擎、社交网络、推荐引擎、计算广告、 电子商务等应用中,都包含大量的机器学习算法。 “机器学习”已经成为学术界和工业界炙手可 热的术语。了解机器学习算法,是很多研究人员和互联网从业人员的基本要求。 翻译本书期间,业界和研究界也出现了大量热点名词,包括“大数据”(big data)、 “深度学 习”(deep learning)、“知识图谱”(knowledge graph)等,基于社交网络的研究和应用也层出不 穷。可以说,机器学习与这些名词之间都具有十分密切的联系,了解机器学习对于把握业界和研 究界的脉搏至关重要。 本书没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+ 实际代码+运行效果”来介绍每一个算法。学习计算机的人都知道,计算机是一门实践学科,没 有真正实现运行,很难真正理解算法的精髓。这本书的最大好处就是边学边用,非常适合于急需 迈进机器学习领域的人员学习。实际上,即使对于那些对机器学习有所了解的人来说,通过代码 实现也能进一步加深对机器学习算法的理解。 本书的代码采用Python语言编写。Python代码简单优雅、易于上手,科学计算软件包众多, 已经成为不少大学和研究机构进行计算机教学和科学计算的语言。相信Python编写的机器学习代 码也能让读者尽快领略到这门学科的精妙之处。 由于个人精力有限,加上时间紧迫,和前两本书都是独立翻译有所不同,本书邀请了多名颇 具实力的译者共同完成。全书共包括15章4个附录,曲亚东翻译第1~3章,李鹏博士翻译第4、10、 11、12章及附录A、B,李锐博士翻译第5、8、9、15章及附录C、D,王斌翻译第6、7、13、14 章及其他部分并审校全文。 感谢翻译过程中图灵公司谢工、傅志红、李鑫、郭志敏、刘紫凤等人给予的帮助,感谢所有 译者的家人朋友一如既往的支持和鼓励,感谢所有帮助和指导过我们的人。 译者序 V 由于译者水平有限,书中难免会有疏漏,还望读者不吝提出意见和建议。同前几本书一样, 本书的勘误也会在网上及时公布,地址在:http://ir.ict.ac.cn/~wangbin/mli-book。读者可以通过邮 件[email protected]或者新浪微博和我联系。 王斌 2013年1月15日凌晨于中关村 1 2 3 4 5 6 7 8 9 10 VI 前 言 前 言 大学毕业后,我先后在加利福尼亚和中国大陆的Intel公司工作。最初,我打算工作两年之后 回学校读研究生,但是幸福时光飞逝而过,转眼就过去了六年。那时,我意识到我必须回到校园。 我不想上夜校或进行在线学习,我就想坐在大学校园里吸纳学校传授的所有知识。在大学里,最 好的方面不是你研修的课程或从事的研究,而是一些外围活动:与人会面、参加研讨会、加入组 织、旁听课程,以及学习未知的知识。 在2008年,我帮助筹备一个招聘会。我同一个大型金融机构的人交谈,他们希望我去应聘他 们机构的一个对信用建模(判断某人是否会偿还贷款)的岗位。他们问我对随机分析了解多少, 那时,我并不能确定“随机”一词的意思。他们提出的工作地点令我无法接受,所以我决定不再 考虑了。但是,他们说的“随机”让我很感兴趣,于是我拿来课程目录,寻找含有“随机”字样 的课程,我看到了“离散随机系统” 。我没有注册就直接旁听了这门课,完成课后作业,参加考 试,最终被授课教授发现。但是她很仁慈,让我继续学习,这让我非常感激。上这门课,是我第 一次看到将概率应用到算法中。在这之前,我见过一些算法将平均值作为外部输入,但这次不同, 方差和均值都是这些算法中的内部值。这门课主要讨论时间序列数据,其中每一段数据都是一个 均匀间隔样本。我还找到了名称中包含“机器学习”的另一门课程。该课程中的数据并不假设满 足时间的均匀间隔分布,它包含更多的算法,但严谨性有所降低。再后来我意识到,在经济系、 电子工程系和计算机科学系的课程中都会讲授类似的算法。 2009年初,我顺利毕业,并在硅谷谋得了一份软件咨询的工作。接下来的两年,我先后在涉及 不同技术的八家公司工作,发现了最终构成这本书主题的两种趋势:第一,为了开发出竞争力强的 应用,不能仅仅连接数据源,而需要做更多事情;第二,用人单位希望员工既懂理论也能编程。 程序员的大部分工作可以类比于连接管道,所不同的是,程序员连接的是数据流,这也为人 们带了巨大的财富。举一个例子,我们要开发一个在线出售商品的应用,其中主要部分是允许用 户来发布商品并浏览其他人发布的商品。为此,我们需要建立一个Web表单,允许用户输入所售 商品的信息,然后将该信息传到一个数据存储区。要让用户看到其他用户所售商品的信息,就要 从数据存储区获取这些数据并适当地显示出来。我可以确信,人们会通过这种方式挣钱,但是如 果让要应用更好,需要加入一些智能因素。这些智能因素包括自动删除不适当的发布信息、检测 不正当交易、给出用户可能喜欢的商品以及预测网站的流量等。为了实现这些目标,我们需要应 用机器学习方法。对于最终用户而言,他们并不了解幕后的“魔法” ,他们关心的是应用能有效 运行,这也是好产品的标志。 前 言 VII 一个机构会雇用一些理论家(思考者)以及一些做实际工作的人(执行者) 。前者可能会将 大部分时间花在学术工作上,他们的日常工作就是基于论文产生思路,然后通过高级工具或数学 进行建模。后者则通过编写代码与真实世界交互,处理非理想世界中的瑕疵,比如崩溃的机器或 者带噪声的数据。完全区分这两类人并不是个好想法,很多成功的机构都认识到这一点。 (精益 生产的一个原则就是,思考者应该自己动手去做实际工作。)当招聘经费有限时,谁更能得到工 作,思考者还是执行者?很可能是执行者,但是现实中用人单位希望两种人都要。很多事情都需 要做,但当应用需要更高要求的算法时,那么需要的人员就必须能够阅读论文,领会论文思路并 通过代码实现,如此反复下去。 在这之前,我没有看到在机器学习算法方面缩小思考者和执行者之间差距的书籍。本书的目 的就是填补这个空白,同时介绍机器学习算法的使用,使得读者能够构建更成功的应用。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 VIII 关于本书 关于本书 本书讲述重要的机器学习算法,并介绍那些使用这些算法的应用和工具,以及如何在实际环 境中使用它们。市面上已经出版了很多关于机器学习的书籍,大多数讨论的是其背后的数学理论, 很少涉及如何使用编程语言实现机器学习算法。本书恰恰相反,更多地讨论如何编码实现机器学 习算法,而尽量减少讨论数学理论。如何将数学矩阵描述的机器学习算法转化为可以实际工作的 应用程序,是本书的主要目的。 读者对象 机器学习是什么?谁需要使用机器学习算法?简而言之,机器学习可以揭示数据背后的真实 含义。这本书适合有数据需要处理的读者,也适合于想要获得并理解数据的读者。如果读者有一 些编程概念(比如递归),并且了解一些数据结构(比如树结构),那么将有助于本书的阅读。尽 管机器学习领域的专家不一定能从本书获益,但是如果读者具有线性代数和概率论的入门知识, 那么也会利于本书的阅读。此外,本书使用Python语言进行编程,它过去也被称作“可执行的伪 代码”。本书假定读者有一些基本的Python编程知识,不过不知道如何使用Python也没有关系,只 要具备基本的编程思想,学习Python也不困难。 数据挖掘十大算法 数据以及基于数据做出决策是非常重要的,本书内容也是来源于数据——“数据挖掘十大算 法”是IEEE数据挖掘国际会议(ICDM)上的一篇论文,2007年12月在Journal of Knowledge and Information Systems杂志上发表。依据知识发现和数据挖掘国际会议(KDD)获奖者的问卷调查 结果,论文统计出排名前十的数据挖掘算法。本书的基本框架与论文中提到的算法基本一致。聪 明的读者可能已经注意到,虽然论文只给出了十个重要的数据挖掘算法,但本书却有十五章。下 面我会给出解释,这里我们先看看排名前十的数据挖掘算法。 论文选出的机器学习算法包括:C4.5决策树、K-均值(K-mean)、支持向量机(SVM)、Apriori、 最大期望算法(EM)、PageRank算法、AdaBoost算

pdf文档 [图灵程序设计丛书].机器学习实战

专业资料 > IT/计算机 > 互联网 > 文档预览
334 页 0 下载 237 浏览 3.0分
温馨提示:当前文档最多只能预览 20 页,若文档总页数超出了 20 页,请下载原文档以浏览全部内容。
本文档由 woyaoziliao 于 2020-12-18上传分享
相关精品文档
  • 在线学习考试操作指南 一、报名学习 1、打开浏览器输入地址 http://train.cqafxh.com 进入学习平台。 2、点击右上角登录进入登录界面(图一),没有账户点击快速报名申请一个 账号(图二),填写相应信息后提交即可(图三...
    明星     3.0 分 5 页 | 2.08 MB
  • 目录 第一章 王强夜谈敌情 /1 第二章 老洪飞车搞机枪 第三章合伙开炭厂 /13 /26 第四章来了管账先生 /37 第五章政委和他的部下 第六章小坡被捕 /63 第七章血染洋行 /74 /47 第八章山里来了紧...
    其它     3.0 分 519 页 | 1.84 MB
  • 目录 第 1 篇 寻求生命的价值 用饱满的热情生活 /2 从容应对生活 /6 追求伟大 /9 让智慧拯救灵魂 /12 在思考中获得力量 /15 追寻美的生活 /19 品味记忆的美好 /22 让思想变得崇高 /27 倾听心灵的声音 /30 ...
    其它     3.0 分 254 页 | 3.22 MB
  • 目 录 第一篇 同情博爱 感恩的心 / 2 此生两依依 / 5 你就是百万富翁 / 8 视力与偏见 / 10 真正的爱心 / 12 用真诚打动别人 言语难诉的爱 最美丽的人 / 14 / 16 / 20 让孩子自己走 ...
    其它     3.0 分 257 页 | 3.26 MB
  • 目录 李 /1 白 蜀道难 /1 将进酒 /6 /9 行路难(其一) 长干行 /10 静夜思 /13 长相思 /14 /15 秋浦歌(其十五) /16 赠汪伦 /17 宣州谢朓楼饯别校书叔云 /19 梦游...
    其它     3.0 分 406 页 | 3.11 MB
  • VMware 虚拟化技术交流培训 Confidential © 2009 VMware Inc. All rights reserved 内容介绍 VMware 虚拟化基础 VMware vSphere 基础概念 VMware...
    计算机软件及应用     3.0 分 53 页 | 3.75 MB
  • 1 VMware vSphere 教程 图:结构 1.1 什 么 是 虚拟化 1.1.1 物 理 机 与 虚拟机 1.1.2 虚拟机的 优点 1.1.3 vSphere 的工作原理是什么? 1.1.3.1 什么是 vC...
    计算机硬件及网络     3.0 分 12 页 | 2.76 MB
  • 1 VMware vSphere 教程 图:结构 1.1 什 么 是 虚拟化 1.1.1 物 理 机 与 虚拟机 1.1.2 虚拟机的 优点 1.1.3 vSphere 的工作原理是什么? 1.1.3.1 什么是 vC...
    政治     3.0 分 0 页 | 12.68 MB
  • C++程序设计练习题一 一、单项选择题 1. C++是一种( B )的程序设计语言。 A. 面向对象 B. 即可面向过程,又可面向对象 C. 面向过程 D. 面向系统 2. 在下面有关析构函数特征的描述中,正确的是( C )。 A....
    外销员     3.0 分 48 页 | 347.23 KB
  • C 程序设计练习题一 一、选择题 1.以下选项中属于 C 语言的数据类型是( B )。 A. 复合型 B. 双精度型 C. 逻辑型 D. 集合型 2.以下说法中正确的是( C )。 A. C 语言程序总是从第一个函数开始执行 B. ...
    职称计算机     3.0 分 22 页 | 186.50 KB
  • Flash 动画设计练习题一 一、选择题 1.下列选项中不属于 Flash 8 面板的是( B A 属性面板 B 修改面板 )。 C 动作面板 )键不放即可绘制正圆形。 2.利用椭圆工具进行绘画时,只要按住( A A Shift ...
    职称计算机     3.0 分 15 页 | 98.50 KB
  • 学员专用 请勿外泄 2020 环球网校二级建造师《建设工程法规及相关知识》第 45 讲民事诉讼的审判程序与民事 诉讼的执行程序 【考点】民事诉讼的审判程序 1.民事一审程序【★★★】 (1)一审程序包括普通程序和简易程序,普通程序是第一审...
    二级建造师     3.0 分 4 页 | 279.61 KB