集成学习 task3

Problem 4

岭回归目标函数中加入了L2正则项:

f(w)=\sum_{i=1}^{m}\left(y_{i}-x_{i}^{T} w\right)^{2}+\lambda \sum_{i=1}^{n} w_{i}^{2}

求解方法可以直接求解析解,或梯度下降。

Lasso回归加入的是L1正则项:

f(w)=\sum_{i=1}^{m}\left(y_{i}-x_{i}^{T} w\right)^{2}+\lambda \sum_{i=1}^{n} |w_{i}|

可以用坐标下降或ADMM求解。

Lasso由于使用L1正则项,所以具有一定的特征选择功能,因为L1正则倾向于产生稀疏稀疏,它可以将一些“对标签没有用处”的特征对应的系数压缩为0,进而将对结果有较大影响的特征突显出来,而岭回归中L2正则项不具备这个功能,它只会讲一些无关特征的系数降到一个较小的值,但不会降为0。

Problem 5

\psi\in [-\pi/2, \pi/2], \theta\in[0,2\pi] ,椭球面 x^2/a^2+y^2/b^2+z^2/c^2=1 上的点 v=(x,y,z)^T 可以表示为:

\begin{aligned} x &= acos(\theta)cos(\psi) \\ y &= bsin(\theta)cos(\psi) \\ z &= csin(\psi) \\ \end{aligned}

从区间的均匀分布中抽取 \psi,\theta ,即 \psi_i \sim U(-\pi/2, \pi/2), \theta_i\sim(0,2\pi) ,由上式可以得到椭球上的点 v_i ,经过 N 次抽样,我们可以得到样本的协方差矩阵:

\Sigma = \frac1N\sum_{i=1}^Nv_iv_i^T

根据中心极限定理,令 s_i=\operatorname{vec}(v_iv_i^T) 的均值和方差分别为 \mathbb{E}(s_i)\operatorname{Var}(s_i) ,则在 N 足够大情况下, \Sigma 近似服从正态分布:

\operatorname{vec}(\Sigma) \sim \mathcal{N}(\mathbb{E}(s_i),\frac{\operatorname{Var}(s_i)}{N})

N \rightarrow +\infty

\begin{aligned} \Sigma &= \mathbb{E}_{\theta,\psi} \begin{bmatrix}x^2 & xy & xz \\ xy & y^2 & yz \\ xz & yz & z^2\end{bmatrix} =\int_{0}^{2\pi}\int_{-\pi/2}^{\pi/2}\begin{bmatrix}x^2 & xy & xz \\ xy & y^2 & yz \\ xz & yz & z^2\end{bmatrix}p(\psi)p(\theta) d\psi d\theta \\ &= \begin{bmatrix}\frac{a^2}{4} & 0 & 0 \\ 0 & \frac{b^2}{4} & 0 \\ 0 & 0 & \frac{c^2}{2}\end{bmatrix} \end{aligned}

显然,最大和次大的特征值为 a^2/4, b^2/4, c^2/2 中较大与次大者,特征向量则为对应的 X,Y,Z 三轴中的二者,PCA投影后结果即为在二轴上的截面。

Problem 6

参考 https://zhuanlan.zhihu.com/p/59775730