集成学习-task4

LDA (Linear Discriminant Analysis)

线性判别分析,也成为高斯判别分析(GDA),在k个类别,n维正态分布下,LDA利用k个n维超平面将n维空间分割为k个区域。超平面上的点称为决策边界。特别地,在3个类别的2维正态分布中,有3条射线将平面分割为3个区域,其如下图所示:

其中最重要的是,假设:不同类别间x服从高斯分布,且协方差矩阵相同,直观来讲就是不同类别之间属性值的分布形状相同,只是所处的中心位置μ不同而已。

基于贝叶斯公式对线性判别分析进行理解:

其中πk 为第k类的先验概率,也就是样本里面第 𝑘 类的样本个数除以总样本的个数;分母为归一化因子,也即,当样本给定的时候是一个与分类k无关的常数,因此只需要比较分子的大小。

假设每一类的x都服从正态分布,且同方差!

当自变量为多个时候,则利用多元正态分布的假设。

基于降维分类对线性判别分析进行理解:

对数据进行分类,我们简称为:类内方差小,类间方差大,在计算机语言叫“松耦合,高内聚”。

1.降维投影
2.求解类内的方差和类间间距(平方值)
3.最大化 类间间距/类内方差和

二次判别分析(Quadratic Discrimination Analysis,QDA)

假设:不同类别间x服从高斯分布,且协方差矩阵不同。因此,高斯线性判别的决策边界是一个超平面,而二次判别分析的决策边界是一个超二次曲面。

朴素贝叶斯

假设类别之间没有关系,即类别之间的协方差矩阵为0,对模型进行简化,那么ta比线性判别分析模型的方差小,偏差大。

朴素贝叶斯假设(Naive Bayes (NB) assumption):假设属性值在每一个类别中的取值是独立的