图灵社区的电子书没有采用专有客 户端,您可以在任意设备上,用自 己喜欢的浏览器和PDF阅读器进行 阅读。 但您购买的电子书仅供您个人使用, 未经授权,不得进行传播。 我们愿意相信读者具有这样的良知 和觉悟,与我们共同保护知识产权。 如果购买者有侵权行为,我们可能 对该用户实施包括但不限于关闭该 帐号等维权措施,并可能追究法律 责任。 版 权 声 明 Copyright © 2017 Packt Publishing. First published in the English language under the title Mastering Machine Learning with R (Second Edition). Simplified Chinese-language edition copyright © 2018 by Posts & Telecom Press. All rights reserved. 本书中文简体字版由 Packt Publishing 授权人民邮电出版社独家出版。未经出版者书面许可,不得以任 何方式复制或抄袭本书内容。 版权所有,侵权必究。 内 容 提 要 机器学习是近年来的热门技术话题,R 语言是处理其中大量数据的有力工具。本书为读者提供机器学 习和 R 语言的坚实算法基础和业务基础,内容包括机器学习基本概念、线性回归、逻辑斯蒂回归和判别分 析、线性模型的高级特征选择、K 最近邻和支持向量机等,力图平衡实践中的技术和理论两方面。 本书适合想理解和表述机器学习算法的 IT 人士、想在分析中发挥 R 强大威力的统计学专家。即使是 同时精通 IT 技术和统计学的读者,在本书中仍然可以发现一些有用的窍门和技巧。 [美] Cory Lesmeister 译 陈光欣 责任编辑 陈 曦 责任印制 周昇亮 北京市丰台区成寿寺路11号 ◆ 人民邮电出版社出版发行 ◆ 著 邮编 100164 网址 http://www.ptpress.com.cn 北京 电子邮件 [email protected] 印刷 ◆ 开本:800×1000 1/16 印张:19.5 字数:461千字 印数:1 — 4 000册 著作权合同登记号 2018年 2 月第 1 版 2018年 2 月北京第 1 次印刷 图字:01-2017-5046号 定价:69.00元 读者服务热线:(010)51095186转600 印装质量热线:(010)81055316 反盗版热线:(010)81055315 广告经营许可证:京东工商广登字 20170147 号 前 言 1 1 前 2 言 3 “应该给人第二次机会,但一定要留个心眼儿。 ” 4 ——约翰·韦恩 人生中,能得到第二次机会可不常见。我还记得完成本书第1版的编辑工作之后,我不停地 问自己:“为什么不……?”或者“我都写了些什么东西啊?”实际上,本书第1版出版之后,我 做的第一个项目没有使用书中的任何一种方法。我暗下决心,如果还有机会,一定要在第2版中 介绍这些方法。 当我开始写作第1版时,目标是做出点不一样的东西,在介绍各种机器学习方法的同时,还 要使内容喜闻乐见。收到所有反馈之后,我认为自己实现了这个目标。但事物总是不完美的,而 且,如果你想满足所有人的需要,那最终谁都满足不了。我想起了自己最喜欢的那句腓特烈大帝 的名言:“诸事皆殚精竭虑者,终将一无所成。”所以,我并非一味求全,而是提供足够的技能和 工具,来使读者尽量轻松愉快地学习R语言和机器学习。在第1版的基础之上,我又添加了一些非 常有趣的新技术。总会有一些批评者抱怨这本书没有提供足够的数学知识,或是缺少某些方面的 内容。我对这些意见的回答是:它们已经存在!为什么因为有人抱怨就要重复那些已经有人做了, 并且做得非常好的事情呢?再次声明,我要写出一些与众不同的东西,一些能够抓住读者眼球并 能使他们在这个充满竞争的领域取得成功的东西。 给出第2版每章内容的修改(或改进)之前,我先解释一下第2版总体上的变化。第一个总体 变化就是,我放弃了一直使用 = 作为赋值操作符(而不是使用 <-)的努力。当我越来越多地与 他人分享代码时,我意识到再也不能使用=,而应该使用 <-了。签下第2版合约之后,我做的第 一件事就是逐行检查代码,将 = 修改为 <-。第2版更重要的一个改变是,代码更加整洁和标准 化,这对于与合作者和管理者(恕我直言)分享代码也非常重要。使用版本较新的RStudio可以 非常方便地实现代码标准化,写出的代码真是太标准了!嗯,首先就是要为代码加上合适的空格。 举例来说,以前我会不假思索地写出c(1,2,3,4,5,6)这样的代码,连一个空格都懒得加。现在, 我会写成c(1, 2, 3, 4, 5, 6),每个逗号后面都加一个空格,这样代码就会更加易读。如果 你还想了解更多代码标准,可以参见谷歌的R代码风格指南https://google.github.io/styleguide/ Rguide.xml/。 5 6 7 8 9 10 11 12 13 2 前 言 我还收到了一些电子邮件,说我在网上获取的部分数据已经不存在了。国家冰球联盟已经决 定使用一套全新的统计方法,所以我必须从头开始,重新做一遍那个例子。为了解决类似的问题, 我把数据放到了GitHub上。 总而言之,为了给大家提供最好的工具,我尽了相当大的努力。另外,企业家马克·库班此 前的一些评论在网络上引起了非常大的反响:  “人工智能、深度学习、机器学习——如果你还不懂这些知识,那么一定要学习一下,不 管你是做什么的。否则在3年之内,你就跟恐龙差不多了。”  “我个人认为,在未来10年内,对文科专业人才的需求要超过对编程专业甚至工程专业人 才的需求。因为当所有数据都呈现在面前时,我们就面临多种选择,这就需要以不同的 视角来看待数据,以便得到各种不同的数据视图。所以需要更多思维更加开放的人才。” 这两条评论除了在博客圈内有一些交集之外,乍看上去彼此之间没有什么联系。但是仔细想 一下,我认为他触到了我觉得自己应该写这本书的痛点。我坚信机器学习在某种程度上应该造福 于大众。随着计算能力和信息可用性的不断提高,机器学习对于所有人来说都将是一种司空见惯 的事情。但从另一方面看,机器学习还有一个问题,这个问题在现在和将来都会存在,那就是对 结果的解释。如果你努力描述真阳性率和假阳性率时,对方一脸茫然,你应该怎么办?你怎样才 能通过讲故事迅速启发听众?如果你做不到,请通知我,我非常愿意与你一起分享我的故事。 必须有人带头来做这些事情,并以此影响自己所在的组织。如果一个具有历史学或音乐鉴赏 学位的人想做这些事,那就让他做吧。我每天都学习历史,它对我帮助巨大。库班的评论从多个 方面使我更加确信,本书第1章最重要。如果你还没有向商业伙伴提出这个问题: “你想做些什么 不一样的事情?”那么最好明天就去问。有太多人将太多努力花费在那些和组织及其决策完全无 关的分析上。 本书内容 下面按章节给出本书对第1版做出的修改。 第1章重新制作了流程图,更正了一个无意中的输入错误,并新增了一些方法。 第2章改进了代码,并给出了更美观的图表,此外基本与第1版一致。 第3章改善并精简了代码。增加了多元自适应回归样条模型,这是我最喜欢的技术之一,它 的效果非常好,可以处理非线性问题,而且易于解释。我将它作为基础模型,将其他模型作为“挑 战者” ,看看其他模型能否在性能上超过样条模型。 第4章不但介绍了回归模型中的特征选择技术,还包括了分类模型中的特征选择技术。 前 言 3 第5章梳理并精简了代码。 第6章增加了XGBOOST扩展包提供的流行技术,还增加了使用随机森林作为特征选择工具 的技术。 1 2 第7章更新了一些深度学习方法的信息,并改进了使用H2O软件包的代码,包括超参数搜索 技术。 第8章新增了使用随机森林进行无监督学习的方法。 3 第9章使用了新的数据集,新增了样本外预测的方法。 第10章新增了序列分析方法,我发现这种方法越来越重要,特别是在营销领域。 第11章属于全新内容,使用了若干个非常棒的软件包。 第12章添加了另外几年的气候数据,以及对几种不同因果关系测试方法的演示。 第13章增加了数据,改进了代码。 4 5 6 第14章也是新内容,帮助你在云上简单而又快速地获取R。 附录增加了新的数据处理方法。 7 准备工作 8 R是免费的开源软件,你只需从https://www.r-project.org/下载并安装即可。我强烈建议你从 https://www.rstudio.com/products/RStudio/下载IDE和RStudio,当然,这一步不是必需的。 9 目标读者 本书的目标读者是数据科学家、数据分析师等专业人员。如果你具有使用R进行机器学习的 工作经验,又想提高能力以成为机器学习领域的专家,那么本书也非常适合你。 排版约定 本书以不同文本样式区分不同种类的信息,下面列出并解释几种样式示例。 文本中的代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输 入和Twitter用户定位都表示为:“可以在R的MASS包中找到该数据框,名为biopsy。” 10 11 12 13 4 前 言 所有命令行输入和输出都表示为: > bestglm(Xy = biopsy.cv, IC="CV", CVArgs=list(Method="HTF", K=10, REP=1), family=binomial) 新名词和重点词会以楷体表示。显示器屏幕(比如菜单或对话框)上的词在文本中表示为: “如果想下载新模块,我们可以使用Files|Settings|Project Name|Project Interpreter。” 警告或重要的注意事项。 提示或小技巧。 读者反馈 欢迎各位提出宝贵意见,请让我们知道你对本书的看法——喜欢什么或者不喜欢什么。读者 反馈对我们非常重要,因为这可以帮助我们发现对大家最有帮助的主题。 要想提供反馈,只需登录“图灵社区”本书页面(http://www.ituring.com.cn/book/1989)并 留言。 客户支持 如果您购买了我们出版的图书,我们将提供一系列服务来使您获得最大收益。 下载示例代码 你可以从“图灵社区”本书页面(http://www.ituring.com.cn/book/1989)下载书中示例代码。 文件下载结束之后,请确定使用以下软件的最新版本解压或提取文件:    Windows系统:使用WinRAR或7-Zip Mac系统:使用Zipeg、iZip或UnRarX Linux系

pdf文档 [图灵程序设计丛书].精通机器学习:基于R.第2版

专业资料 > IT/计算机 > 电脑基础知识 > 文档预览
317 页 0 下载 241 浏览 3.0分
温馨提示:当前文档最多只能预览 20 页,若文档总页数超出了 20 页,请下载原文档以浏览全部内容。
本文档由 woyaoziliao 于 2020-12-18上传分享
相关精品文档
  • 在线学习考试操作指南 一、报名学习 1、打开浏览器输入地址 http://train.cqafxh.com 进入学习平台。 2、点击右上角登录进入登录界面(图一),没有账户点击快速报名申请一个 账号(图二),填写相应信息后提交即可(图三...
    明星     3.0 分 5 页 | 2.08 MB
  • 目录 第一章 王强夜谈敌情 /1 第二章 老洪飞车搞机枪 第三章合伙开炭厂 /13 /26 第四章来了管账先生 /37 第五章政委和他的部下 第六章小坡被捕 /63 第七章血染洋行 /74 /47 第八章山里来了紧...
    其它     3.0 分 519 页 | 1.84 MB
  • 目录 第 1 篇 寻求生命的价值 用饱满的热情生活 /2 从容应对生活 /6 追求伟大 /9 让智慧拯救灵魂 /12 在思考中获得力量 /15 追寻美的生活 /19 品味记忆的美好 /22 让思想变得崇高 /27 倾听心灵的声音 /30 ...
    其它     3.0 分 254 页 | 3.22 MB
  • 目 录 第一篇 同情博爱 感恩的心 / 2 此生两依依 / 5 你就是百万富翁 / 8 视力与偏见 / 10 真正的爱心 / 12 用真诚打动别人 言语难诉的爱 最美丽的人 / 14 / 16 / 20 让孩子自己走 ...
    其它     3.0 分 257 页 | 3.26 MB
  • 目录 李 /1 白 蜀道难 /1 将进酒 /6 /9 行路难(其一) 长干行 /10 静夜思 /13 长相思 /14 /15 秋浦歌(其十五) /16 赠汪伦 /17 宣州谢朓楼饯别校书叔云 /19 梦游...
    其它     3.0 分 406 页 | 3.11 MB
  • VMware 虚拟化技术交流培训 Confidential © 2009 VMware Inc. All rights reserved 内容介绍 VMware 虚拟化基础 VMware vSphere 基础概念 VMware...
    计算机软件及应用     3.0 分 53 页 | 3.75 MB
  • 1 VMware vSphere 教程 图:结构 1.1 什 么 是 虚拟化 1.1.1 物 理 机 与 虚拟机 1.1.2 虚拟机的 优点 1.1.3 vSphere 的工作原理是什么? 1.1.3.1 什么是 vC...
    计算机硬件及网络     3.0 分 12 页 | 2.76 MB
  • 1 VMware vSphere 教程 图:结构 1.1 什 么 是 虚拟化 1.1.1 物 理 机 与 虚拟机 1.1.2 虚拟机的 优点 1.1.3 vSphere 的工作原理是什么? 1.1.3.1 什么是 vC...
    政治     3.0 分 0 页 | 12.68 MB
  • C++程序设计练习题一 一、单项选择题 1. C++是一种( B )的程序设计语言。 A. 面向对象 B. 即可面向过程,又可面向对象 C. 面向过程 D. 面向系统 2. 在下面有关析构函数特征的描述中,正确的是( C )。 A....
    外销员     3.0 分 48 页 | 347.23 KB
  • C 程序设计练习题一 一、选择题 1.以下选项中属于 C 语言的数据类型是( B )。 A. 复合型 B. 双精度型 C. 逻辑型 D. 集合型 2.以下说法中正确的是( C )。 A. C 语言程序总是从第一个函数开始执行 B. ...
    职称计算机     3.0 分 22 页 | 186.50 KB
  • Flash 动画设计练习题一 一、选择题 1.下列选项中不属于 Flash 8 面板的是( B A 属性面板 B 修改面板 )。 C 动作面板 )键不放即可绘制正圆形。 2.利用椭圆工具进行绘画时,只要按住( A A Shift ...
    职称计算机     3.0 分 15 页 | 98.50 KB
  • 学员专用 请勿外泄 2020 环球网校二级建造师《建设工程法规及相关知识》第 45 讲民事诉讼的审判程序与民事 诉讼的执行程序 【考点】民事诉讼的审判程序 1.民事一审程序【★★★】 (1)一审程序包括普通程序和简易程序,普通程序是第一审...
    二级建造师     3.0 分 4 页 | 279.61 KB