Task04打卡

梯度下降法 和 链式法则
虽然优化参数有两种方式:一种是直接解出最优解,另一种就是梯度下降法优化参数。我们平时说的训练模型其实就是指梯度下降法。在linear regression中,我们可以直接通过数学解出最优解,但在神经网络中,模型是复杂的,不能或难以通过直接求解的方法给出,因此梯度下降法就成了这里的首选。对于梯度下降法的原理,请读者自己搜索相关资料,在这里就不细讲了。

其次,反向传播原理中用的最多的就是链式法则(Chain Rule)

有了梯度下降和链式法则的基础,我们就可以开始利用反向传播算法计算每一层神经网络参数的微分了。