8月吃瓜教程—task02_2-学习笔记-ss

第三章 线性模型

3.1基本形式

公式类型:f(X) = matrix.Mul(W.T,X)+b. 其中martix.Mul()为矩阵乘,W.T为权重向量的转置矩阵,X为输入的数据向量,b为常量。
极大似然估计 L(theta), 给定theta使得观察到的数据的联合概率密度最大


机器学习三要素: (1)确定研究模型 (2)确定损失函数 (3)确定优化算法


向量在机器学习公式表达中默认为列向量

3.2线性回归

均方误差最小化image
一元线性回归参数image


多元线性回归: 写为矩阵形式,模型为:image,若XX.T为满秩矩阵,image ,若不是满秩矩阵,则有多个参数可满足最小均方误差,可引入正则化项
广义线性回归模型:单调可微函数g(,),有image

3.3对数几率回归

对数几率函数/sigmoid函数:image
回归模型最大化的对数似然:image
最小化似然对数函数化简后结果:image
优化的牛顿法迭代公式为:image
beta的一二阶导数:


自信息:image
信息熵:自信息的期望,度量随机变量x的不确定性。
相对熵(KL散度):表示两个随机变量之间的差异性
交叉熵:最小化相对熵等价于最小化交叉熵image

3.4线性判别分析

LDA:投影到线性空间上,同类别之间协方差尽可能小,不同类别的数据中心距离尽可能远。
image
类内散度矩阵:image
类间散度矩阵:image
原式可写为:image
因而不需要考虑w的模长,J的最小值只由w的方向决定,利用拉格朗日乘子法最终得到,image
多分类情况可以看为是W=(w1,w2,w3,w4…,wn)的求解,利用广义瑞利商将一个多分类拆分为多个二分类求解