-
The EM Algorithm and Extensions
在线阅读本书 The EM Algorithm and Extensions remains the only single source to offer a complete and unified treatment of the theory, methodology, and applications of the EM algorithm. The highly applied area of statistics here outlined involves applications in regression, medical imaging, finite mixture analysis, robust statistical modeling, survival analysis, and repeated–measures designs, among other areas. The text includes newly added and updated results on convergence, and new discussion of categorical data, numerical differentiation, and variants of the EM algorithm. It also explores the relationship between the EM algorithm and the Gibbs sampler and Markov Chain Monte Carlo methods. -
机器学习
本书是最全面的机器学习教材之一。书中首先介绍了机器学习的构成要素(任务、模型、特征)和机器学习任务,接着详细分析了逻辑模型(树模型、规则模型)、几何模型(线性模型和基于距离的模型)和概率模型,然后讨论了特征、模型的集成,以及被机器学习研究者称为“实验”的方法。作者不仅使用了已有术语,还引入了一些新的概念,同时提供了大量精选的示例和插图解说。 -
Deep Learning
-
统计模式识别
译 者 序 信息时代,无处不有模式识别的需求。概括地讲,模式识别是一门以应用数学为理论基础,利用计算机应用技术,解决实际分类及识别问题的学问。按照研究问题的特点及解决问题的手段特征,通常有统计模式识别和结构模式识别之分,前者以多元统计理论为数学基础,以数据特征的形式对问题进行描述,而后者则以形式语言为数学基础,以结构图元的形式对问题进行描述,它们都致力于将隐含在大量样本中的类间差异的规律归纳出来,并综合成适当的分类、识别乃至预测模型。 从发展的角度看,在传统的、较成熟的分类和识别方法的基础上,模糊数学思想方法的介入,人工神经网络对统计模型类型的丰富、进化算法等一批优秀算法的出现,支持向量机、复杂网络、极度学习和深度学习等一些新方法的提出和介入等,使统计模式识别的研究和应用充满活力。 英国著名学者Andrew R. Webb所著《统计模式识别》一书对统计模式识别的理论、概念和方法进行了全面介绍,并在以下方面具有鲜明特点。 1.编写体系。本书以“分类与识别”为主线,在“基本概念理论分析方法讲解应用实例拓展研究”的框架下,介绍统计模式识别的每一个具体方法; 再以应用研究、建议、参考文献等,对由若干方法形成的一类问题进行综述。其中,“拓展研究”能够使读者从知识点伸展到面,进一步了解相关问题的研究动态及人们普遍关注的问题; 而“应用研究”则将模式识别技术与广泛的实际问题紧密相联,颇具启迪性; “总结”及“建议”凝结了作者的体会和经验,颇具指导性; “参考文献”给出了所列文献与书中内容的联系及其特色。这样的组织格局使读者从局部到全局、从理论到方法、从方法到应用、从研究动态到问题展望,一览无余。 2.清晰的分类方法的主线设计。作者将各种分类器学习方法收纳于统计决策、超特征空间划分这两条主线中,从第2章到第9章,用了共八章的篇幅。统计决策重点解决类概率密度函数的训练,除了非参数法和参数法之外,增加了贝叶斯方法的介绍,特别是按照近邻法直方图法核函数法级数法逐步展开的概率密度估计的讲解,对学习者理解、掌握和用好相关技术大有益处; 超特征空间划分按照线性和非线性线条展开,自然引出对支持向量机和多层感知器的介绍,规则归纳法反映了模式识别与智能方法的有机联系,搭建起从分类模型的判别分析到可解释规则的桥梁。 3.将最新研究方法融入统计模式识别框架。作者在“分类与识别”主线下带出对统计模式识别概念、新方法(例如人工神经网、模糊思想用于聚类、支持向量机、新的非参数方法、谱聚类、复杂网络等)的较详尽介绍,使读者能够更深层次地理解它们的构成内涵及其识别行为属性,从而为根据具体问题特点灵活、合理地选用它们提供帮助。 4.内容前后呼应。作者在保持各章节内容相对独立的前提下,特别加强了“谈此及彼”,使读者能够对一种重要方法进行多角度的理解和消化。 5.辩证评述和比较性研究。模式识别问题本身决定了目前实用的模式识别方法和技术没有绝对的好与坏。相信读者会从本书的字里行间领略到作者科学严谨的理论分析及辩证客观的方法评述,并从中受益。另外,本书特别强调并略加笔墨的“分类器优化组合”、“比较性研究”,近年来受到模式识别学者和专家的重视,值得读者关注。 本书对上一版的大部分章节内容都进行了重新编写和组织,包括内容顺序的梳理和调整,使其内容的模块性更强,分类方法的线条更清晰,与机器学习、数据挖掘及知识发现的关联更紧密; 配置了更多的例子和图表,使内容更易读、易理解。 本书的中译本在上版译稿基础上完成。上一版翻译工作由王萍、杨培龙和罗颖昕完成。在这个版本的翻译过程中,范凯波、王娟、王迪、闫春遐和杜雪峰等,在新增内容初译和公式整理等方面提供了帮助。全书由王萍统稿和定稿。 在这里向为本书的翻译工作做出贡献的所有人表示感谢,包括已经毕业的学生杨培龙、罗颖昕和杜雪峰,以及即将毕业的博士生王娟和硕士生闫春遐,在读的博士生范凯波、王迪和石君志。谢谢你们! 由于译者水平所限,译文中难免有疏漏和不妥之处,恳请读者不吝赐教。 王 萍 2014年9月 于天津大学 本书介绍统计模式识别的基本理论和技术,其中大部分内容涉及识别和分类问题,并取材于工程学、统计学、计算机科学和社会学等领域的相关文献。在这些文献中,反映了许多当今最有用的模式处理技术,包括许多最新的非参数识别方法和贝叶斯计算方法,本书一并对它们进行介绍,并对使用这些技术方法的起因和支撑这些技术方法的理论展开讨论,以使读者在使用那些流行软件包解决问题时获益最大。本书对各项技术均附以应用研究实例说明之。至于书中涉及的模式识别的应用、对比研究法及理论进展的细节,可以在书后各类文献中找到。 本书内容源自我们对统计模式识别方法进展的研究,以及对传感器数据分析问题的实际应用,针对高年级本科生课程和研究生课程而写,其中有些材料已用于研究生的模式识别课程及模式识别暑期班。本书也是为模式识别领域的实际工作者及其研究者所设计的。作为学习本书内容的先决条件,学习者应具备概率论和线性代数的基本知识,掌握一些基本数学方法(例如,在一些推导中,用于解决具有等式约束和不等式约束问题的拉格朗日数乘法)。本书前版附录提供的一些基本材料可以在本书配套网站找到。 范围 本书展现绝大多数常用的统计模式识别方法。然而,模式识别的许多重要研究进展并非局限于统计学文献,而经常呈现于与机器学习交叉的研究领域。因此,打破传统的统计模式识别的框架将是有益的,本书正是这样做的。例如,我们把一些规则归纳方法作为一种补充方法添加进来,以通过决策树归纳掌控探索过程。本书谈到的大多数方法具有一般性,即这些方法并不要求指定数据或应用的特定类型,于是本书内容不涉及大家时常用到的信号(和图像)预处理方法,以及信号(和图像)滤波方法。 方法 本书每一章所讨论的方法,均会安排讲述与其相关的基本概念和算法,均会在章末给出引自参考文献的相关方法或分类技术的实际应用,其主要目是理解方法的基本概念。有时候需要进行一些详细的数学描述,因此有时不得不划一个界限,以掌控把哪个特定主题讨论到多深。本书涉及的大部分主题可以用整本书来论述,于是我们不得不对所拥有的材料进行取舍,因此每一章的最后一节均提供了主要的参考文献。章末所附习题与开卷式问题有所不同,开卷式问题涉及比较冗长的计算机工程项目。 第三版的新增内容 本书对前版的许多章节进行了重新编写,并添加了一些新的材料,新增内容特点如下。 第3章的内容是新增的,这一章讲述密度估计的贝叶斯法,包括对贝叶斯采样方案的内容拓展、马尔可夫链蒙特卡罗方法、序贯蒙特卡罗采样器和变分贝叶斯法。 新增一节专门讲述密度估计的非参数方法。 新增规则归纳方法。 为分类器的组合方法新增一章。 对特征选择内容进行了重新修订,增添了关于特征选择稳定性的章节。 新增谱聚类内容。 新增一章讲述复杂网络问题,这个问题与社会及计算机网络分析的高增长领域相关。 全书梗概 第1章作为统计模式识别的绪论,给出一些名词术语的定义,介绍监督型分类和无监督型分类。就监督型分类而言,有两种研究方法: 一种方法基于概率密度函数的运用; 另一种方法则基于判别函数的构建。在这一章的最后对模式识别的完整过程进行概括,细节问题则安排在后续章节中讨论。第2章至第4章讨论识别问题的密度函数法。其中,第2章讲解密度函数估计的参数法,它们在贝叶斯法上的进一步拓展安排在第3章,第4章讨论非参数分类器的实现方案,包括被广泛使用的k近邻法及与之相关的有效搜索算法。 第5章至第7章研究有监督分类问题的判别函数的构建方法。第5章集中讨论线性判别函数,其中所涉及的大多数判别法(包括优化、正则化和支持向量机)也适用于第6章展开的非线性研究。第6章探讨基于核函数的方法,特别是径向基函数网络和支持向量机,还讨论了基于投影的方法(多层感知器),这些通常称为神经网络方法。第7章讨论如何使分类函数变为可解释的规则,这种判别方法对一些应用来说非常重要。 第8章讨论分类器的集成方法,即为提高系统的鲁棒性,将多个分类器组合起来。第9章讲述如何测评分类器的性能。 第10章和第11章探讨数据分析和预处理技术(这些工作通常先于第5章至第7章介绍的有监督分类工作,尽管有时可以用来作为有监督方法的后置处理)。第10章讲述特征选择和特征提取方法,它们用以降低描述原始数据特征的维数,这项工作通常是分类器整体设计工作的一部分,只是被人为地将这一模式识别问题划分为相对独立的特征提取过程和模式分类过程。特征提取可以帮助我们深入了解数据结构及分类器需要选用的类型,因此该研究备受关注。第11章讲述无监督分类或称聚类问题,即在样本群中找到所存在的结构并借此将其分组的过程。这类技术的工程应用是对图像进行矢量量化及对语音编码。第12章讨论复杂网络问题,所述方法对待分析的数据用图形的数学概念进行表述,所述及问题与社会及计算机网络的关联很显著。 最后,即第13章,讨论一些重要的包括模型选择问题在内的研究课题。 本书网站 对如下问题提供了补充材料: 相异测度、估计方法、线性代数、数据分析和基本概率方法。 致谢 在编写本书第三版的过程中,我们得到了很多人的帮助。在此特别感谢East Anglia大学的Gavin Cawley博士所给予的帮助和建议,感谢朋友们和同事们(RSRE,DERA 和 QinetiQ的自始至终的帮助),他们对原稿的不同部分提出了许多宝贵意见。还要特别感谢Anna Skeoch为第12章提供数据; 感谢Richard Davies和John Wiley的同事们为稿件的最终出版所给予的帮助。Andrew Webb特别感谢Rosemary所给予的爱、支持和耐心。 -
Python计算机视觉编程
《python计算机视觉编程》是计算机视觉编程的权威实践指南,依赖python语言讲解了基础理论与算法,并通过大量示例细致分析了对象识别、基于内容的图像搜索、光学字符识别、光流法、跟踪、三维重建、立体成像、增强现实、姿态估计、全景创建、图像分割、降噪、图像分组等技术。另外,书中附带的练习还能让读者巩固并学会应用编程知识。 《python计算机视觉编程》适合的读者是:有一定编程与数学基础,想要了解计算机视觉的基本理论与算法的学生,以及计算机科学、信号处理、物理学、应用数学和统计学、神经生理学、认知科学等领域的研究人员和从业者。 -
概率图模型学习理论及其应用
《概率图模型学习理论及其应用》是系统论述概率图模型的基本理论、学习算法及其应用的中文专著,内容包括概率图模型基本概念;完整数据集的概率图模型的学习理论;不完整数据集的概率图模型学习理论;无向概率图模型学习;新型学习方法;概率图模型在计算机视觉、个人信用风险评估及语言识别领域中的应用等部分。《概率图模型学习理论及其应用》从实例出发,由浅入深,直观与严谨相结合,并提供了详尽的参考文献。