电子图书
在过去的十年中,计算和信息技术出现了爆炸式增长。随之而来的是医学、生物学、金融和营销等各个领域的大量数据。理解这些数据的挑战导致了统计领域新工具的开发,并催生了数据挖掘、机器学习和生物信息学等新领域。其中许多工具具有共同的基础,但通常用不同的术语来表达。本书在一个通用的概念框架中描述了这些领域的重要思想。虽然该方法是统计方法,但重点是概念而不是数学。给出了许多例子,并大量使用了彩色图形。对于统计学家和任何对科学或工业数据挖掘感兴趣的人来说,它是宝贵的资源。本书的涵盖范围很广,从监督学习(预测)到无监督学习。许多主题包括神经网络、支持向量机、分类树和提升——这是任何书中第一次对这个主题进行全面的处理。
这个主要的新版本包含许多原版中未涵盖的主题,包括图形模型、随机森林、集成方法、套索的最小角度回归和路径算法、非负矩阵分解和谱聚类。 还有一章介绍“宽”数据(p 大于 n)的方法,包括多重测试和错误发现率。
本书的版权归 Springer Science+Business Media, LLC 所有,该公司已同意 Trevor Hastie 将本书保留在网络上。
机器学习方法利用有限的资源快速从海量数据集中提取价值。它们是广泛工业应用中的既定工具,包括搜索引擎、DNA 测序、股票市场分析和机器人运动,并且它们的使用正在迅速蔓延。懂得这些方法的人可以选择有价值的工作。这本实践性的文本为具有适度数学背景的计算机科学学生提供了这些机会。它是为线性代数和微积分背景有限的最后一年本科生和硕士生设计的。它全面而连贯,在图形模型的框架内开发了从基本推理到高级技术的所有内容。学生学习的不仅仅是一系列技术,他们还培养分析和解决问题的技能,为现实世界做好准备。每章都包含大量基于计算机和理论的示例和练习。为学生和教师提供的资源(包括 MATLAB 工具箱)可在线获取。
本书版权归剑桥大学出版社所有,该出版社已同意允许 在线版 保持自由访问。