NLTK基础教程 用NLTK和Python库构建机器学习应用 叉领域,处理的是计算机与人类语言之间的交互问题。随着人 通过本书,你将学会: 机交互需求的日益增长,计算机具备处理当前主要自然语言的 ■ 能力已经成为了一个必然趋势。NLTK正是这一领域中一个强 处理方式。 大而稳健的工具包。 ■ 句子标签化。 程中,我们将会深度探索NLP领域的基本概念,为这一领域 器和标识器。 ■ 据内容进行检索。 ■ 如何通过特性的提取与选取,构建出针对 不同文本的分类系统。 本处理的经验,那么本书就是为你量身定做的。此外,这本书 也是专业Python程序员快速学习NLTK库的理想选择。 如何通过信息爬取与捕获的手段对相关数 ■ 如何使用各种第三方Python库,如pandas、 scikit-learn、matplotlib、gensim。 ■ 如何对社交媒体网站进行分析,包括发掘 热门话题、舆情分析等。 美术编辑:董志桢 库构建机器学习应用 Python ■ 念有一个充分的了解,并能将这些知识应用到日常工作中。 如果您是NLP或机器学习相关领域的爱好者,并有一些文 如何构建出具有拼写检查、搜索、机器翻 译以及问答系统等功能的实用程序。 工具。 在阅读完本书之后,您将会对NLP与数据科学领域中的概 如何根据自己的需要来创建自定义的解析 和 NLTK ■ 来,我们将会介绍如何分析社交媒体网站,发现热门话题,进 行舆情分析。最后,我们还会介绍一些用于处理大规模文本的 探索不同标签类型的作用,并学习如何将 用 —— ■ 来学习如何从零开始构建自定义的标识器和解析器。在此过 各种开源的Python工具和库提供具有实践意义的见解。接下 如何利用标识化处理手段清理文本歧义, 并利用分块操作更好地处理数据。 在这本书中,我们首先会介绍一些与NLP相关的知识。 然后,我们会探讨一些与数据科学相关的任务,通过这些任务 了解自然语言的复杂性以及机器对它们的 基础教程 NLTK 自然语言处理(NLP)属于人工智能与计算机语言学的交 利用NLTK及其他Python库构建出与自然语言处理、机器学习相关的应用程序 NLTK 基础教程 用NLTK和Python库构建机器学习应用 NLTK Essentials 〔印度〕Nitin Hardeniya 著 凌杰 译 分类建议:计算机/机器学习/自然语言处理 人民邮电出版社网址:www.ptpress.com.cn 异步社区会员 13001013050(13001013050) 专享 尊重版权 FM45257NLTK基础教程——用NLTK和Python库构建机器学习应用.indd 1-3 17-4-19 下午12:56 NLTK 基础教程 用NLTK和Python库构建机器学习应用 〔印度〕Nitin Hardeniya 著 凌杰 译 人 民 邮 电 出 版 社 北 京 异步社区会员 13001013050(13001013050) 专享 尊重版权 FM45257NLTK基础教程——用NLTK和Python库构建机器学习应用.indd 4 17-4-19 下午12:57 版权声明 Copyright © Packt Publishing 2016. First published in the English language under the title NLTK Essentials. All Rights Reserved. 本书由美国 Packt Publishing 公司授权人民邮电出版社出版。未经出版者书面许可,对本书的任何部分不得以任何方式 或任何手段复制和传播。 版权所有,侵权必究。 内容提要 NLTK 库是当前自然语言处理(NLP)领域最为流行、使用最为广泛的库之一, 同时 Python 语言也已逐渐成为主流 的编程语言之一。 本书主要介绍如何通过 NLTK 库与一些 Python 库的结合从而实现复杂的 NLP 任务和机器学习应用。全书共分为 10 章。第 1 章对 NLP 进行了简单介绍。第 2 章、第 3 章和第 4 章主要介绍一些通用的预处理技术、专属于 NLP 领域的预 处理技术以及命名实体识别技术等。第 5 章之后的内容侧重于介绍如何构建一些 NLP 应用,涉及文本分类、数据科学 和数据处理、社交媒体挖掘和大规模文本挖掘等方面。 本书适合 NLP 和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习 NLTK 的资深 Python 程序员以 及机器学习领域的研究人员阅读。  著 [印度] Nitin Hardeniya 译 凌 杰 责任编辑 陈冀康 执行编辑 武晓燕 责任印制 焦志炜  人民邮电出版社出版发行 邮编 100164 北京市丰台区成寿寺路 11 号 电子邮件 [email protected] 网址 http://www.ptpress.com.cn 北京鑫正大印刷有限公司印刷  开本:8001000 1/16 印张:10.75 字数:210 千字 2017 年 6 月第 1 版 印数:1 – 3 000 册 2017 年 6 月北京第 1 次印刷 著作权合同登记号 图字:01-2015-8290 号 定价:49.00 元 读者服务热线:(010)81055410 印装质量热线:(010)81055316 反盗版热线:(010)81055315 广告经营许可证:京东工商广字第 8052 号 异步社区会员 13001013050(13001013050) 专享 尊重版权 作者简介 Nitin Hardeniya 数据科学家,拥有 4 年以上从业经验,期间分别任职于 Fidelity、 Groupon 和[24]7 等公司,其业务横跨各个不同的领域。此外,他还拥有 IIIT-H 的计算语言 学硕士学位,并且是 5 项客户体验专利的作者。 他热衷于研究语言处理及大型非结构化数据,至少拥有 5 年日常使用 Python 的工作经 验。他相信,用 Python 可以构建出大部分与数据科学相关问题的单点解决方案。 他将自己写这本书的经历看成是自己职业生涯的众多荣誉之一,希望用一种非常简单 的形式为人们介绍与 NLP 和机器学习相关的、所有的这些复杂工具。在这本书中,他为读 者提供了一种变通方法,即使用一些相关特定能力的 Python 库,如 NLTK、scikit-learn、 panda 和 NumPy 等。 异步社区会员 13001013050(13001013050) 专享 尊重版权 审阅者简介 Afroz Hussain 数据科学家,目前在 PredictifyMe 公司从事与美国基础数据科学、机器 学习起步相关的研究。他在数据科学领域拥有丰富的项目经验、多年使用 Python、 scikit-learn,以及基于 NLTK 进行文本挖掘的工作经历。他拥有 10 年以上的编程经验以及 与数据分析和商业智能项目相关的软件开发经验。此外,他还通过在线课程以及参加 Kaggle 比赛等活动,获得了不少数据科学领域的新技能。 Sujit Pal 目前就职于 Elsevier 实验室,这是一个包含了 Reed-Elsevier PLC 工作组在内 的研发团队。他的兴趣主要集中在信息检索、分布式处理、本体开发、自然语言处理和机 器学习这几个领域。而且,他也很喜欢用 Python、Scala 和 Java 来编写自己的代码。他充 分整合了自己在这些方面的技能,帮助公司改进了不同产品的一些特性并构建了一些新特 性。他深信自己需要终身学习,并且也在博客:sujitpal.blogspot.com 中分享其经验。 Kumar Raj 第二代数据科学家,目前就职于惠普软件的研发部门,为其提供相关的 解决方案。在那里,他主要负责开发以惠普软件产品为核心的分析层。他毕业于印度理工 学院 Kharagpur 技术分校,并具有两年以上各种大数据分析领域的工作经验,涉及文本分 析、网页抓取及检索、人力资源分析、虚拟系统的性能优化,以及气候变化的预测等。 异步社区会员 13001013050(13001013050) 专享 尊重版权 译者序 说来也凑巧,在我签下这本书的翻译合同时,这个世界好像还不知道 AlphaGo 的存在。 而在我完成这本书的翻译之时,Master 已经对人类顶级高手连胜 60 局了。至少从媒体的热 度来看,的确在近几年,人工智能似乎是越来越火了。其原因是 Google 在汽车驾驶和围棋 这两个领域的项目得到了很好的进展和宣传,而这两个领域在过去被很多人想当然地认为 是人类的专属领域。因此在专属领域接连被突破情况下,一些人得了“机器恐惧症”。例如 高晓松先生的这段微博: @高晓松 作为自幼学棋,崇拜国手的业余棋手,看了 Master50 : 0 横扫中日韩顶尖高手的对局,难 过极了。为所有的大国手伤心,路已经走完了。多少代大师上下求索,求道求术,全被破 解。未来一个八岁少年只要一部手机就可以战胜九段,荣誉信仰灰飞烟灭。等有一天,机 器做出了所有的音乐和诗歌,我们的路也会走完。 1 月 4 日 16:21 来自 iPhone 7 Plus 其实之所以会有这样恐惧,大部分是因为人们在讨论人工智能的时候容易将机器“人 格化”,很多科幻作品就是这么干的,这看起来很合理,但问题是机器无论如何都不是人。 对于机器来说,围棋说穿了不过是一种基于统计学概率的决策模型,属于数学领域的问题, 它本来就是机器的强项。用围棋对于人类的难度来推导机器智能的进步,其实是很没有逻 辑的事情。而且事实上,今天所流行的这些人工智能方法都是在 20 世纪 70 年代前后提出 的理论,今天的辉煌主要是由于硬件的进步为实现提供了基础,但在智能上并没有多大的 实质突破。要知道,人们对于鉴定人工智能的主要标准早有定论,那就是图灵测试。 图灵测试关注的是人机对话能力,换句话说,什么时候机器能通过对话骗到你的一百 块钱,也比它下棋下赢世界冠军更智能点。而想要增强人机对话能力,自然语言处理就是 异步社区会员 13001013050(13001013050) 专享 尊重版权 2 译者序 首当其冲的一个领域了。正如我们所说,机器的专长是数学领域,所以自然语言处理问题 的目的就是要把我们人类的文本、音频转换成可被分析的数学模型,这对于机器来说是比 围棋困难得多的事情。这也 是人类和机器的根本区别,对于这两种智能来说,困难的定义 是截然不同的。 说实话,刚开始译这本书的时候,我对它的翻译难度有些估计不足,很多专业词汇国 内还似乎还没有标准译法。有些甚至根本找不到对应的中

pdf文档 [异步图书].NLTK基础教程:用NLTK和Python库构建机器学习应用

专业资料 > IT/计算机 > 计算机软件及应用 > 文档预览
172 页 0 下载 198 浏览 3.0分
温馨提示:当前文档最多只能预览 20 页,若文档总页数超出了 20 页,请下载原文档以浏览全部内容。
本文档由 woyaoziliao 于 2020-12-18上传分享
相关精品文档