集成学习task4打卡

回归问题和分类问题区别在于输出变量的类型,回归是连续变量预测,分类是离散变量预测。相同点都是对输入数据进行整合分析,并输出模型预测的结果。回归和分类问题有时能互相转化,有时不能。若输出变量是数值型的,则只能用回归模型;若是分类型,那就只能用分类模型。若输出变量是有顺序的分类数据,那么此时分类和回归是一致的。

  • 对于回归问题,其输出空间是一个度量空间,即所谓“定量”。也就是说,回归问题的输出空间定义了一个度量去衡量输出值与真实值之间的“误差大小”。例如:预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(即均方误差这类误差函数)。
  • 对于分类问题,其输出空间B不是度量空间,即所谓“定性”。也就是说,在分类问题中,只有分类“正确”与“错误”之分,至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。 **使用交叉熵作为损失函数,对预测错误的惩罚是随着输出的增大,逐渐逼近一个常数,这就不存在上述问题,因为不度量预测和真实值的差,预测错误的惩罚和类别无关。

LDA根据样本计算均值和协方差矩阵,然后带入判别式。LogitsR使用极大对数似然估计参数。

朴素贝叶斯假定各个输入的变量之间相互独立,但实际数据很难满足这种情况。因此提出了线性判别分析和二次判别分析。后两种方法不要求输入变量之间相互独立。线性判别分析的要求是各类别的方差相同,二次判别分析则要求各类别方差不同。