集成学习task3

Task3

(1)模型的方差(Var):从13亿中抽1000个样本进行建模,抽样过程重复100遍,从而得到100个1000人样本集,我们使用线性回归模型估计参数就能得到100个线性回归模型.由于样本抽取具有随机性,我们得到的100个模型不可能参数完全一样,这100个模型之间的差异叫做方差.

模型的偏差(Bias):为了选择一个简单的模型去估计真实函数所带入的偏差.例如真实的数据X与Y是二次关系,我们选择线性模型进行建模,模型复杂度引起的误差成为偏差.偏差度量了学习算法和真实结果偏离程度.

(2)方差模型复杂度越大越大,偏差模型复杂度越大越小,因此测试均方误差呈U型曲线.偏差度量单个模型学习能力,方差度量同个模型在不同数据集上稳定性.

(3)模型越复杂训练误差越小,测试误差先减后增.对测试误差进行估计的方法有训练误差修正与交叉验证.

训练误差修正:首先构造特征较多的模型使其过拟合(训练误差小,测试误差大),然后通过加上特征个数的惩罚对训练误差进行修正:Cp,AIC,BIC(惩罚重).

(4)岭回归可以通过梯度下降法优化,Lasso不可以(LARS). Lasso和岭回归都在约束下回归,Lasso可以做到特征选择,岭回归做不到(beta1,beta2!=0).

(5)圆,椭圆