8月吃瓜教程—task01-学习笔记-ss

第一章

1.1 引言

“经验”-> 数据, “算法”-> 学习算法, 模型指代全局算法, 模式指代局部规则。

1.2基本术语

数据集:训练集,测试集,标签;任务:分类,回归,聚类;学习任务:有监督学习,无监督学习;泛化

1.3假设空间

归纳学习:从样本到泛化;假设空间:符合数据维度的所有假设;版本空间:与训练集一致的假设集合。


第二章 模型评估与选择

2.1 经验误差与拟合

错误率:E = a/m; a为错误分类个数,m为样本总量;
精度:1-E
误差经验误差泛化误差;希望泛化误差尽可能小。
欠拟合为训练集和测试集误差大,过拟合为训练集误差小,测试集误差大。

2.2 评估方法
2.2.1 留出法

直接将数据集划分为互斥的训练集和测试集

2.2.2 交叉验证法

数据集的样本数量为m,将数据集划分为k个子集,每个子集的样本分布要求尽量均衡,在这个基础上进行k的排练组合,每个组合使用k-1个样本子集作为训练集,剩下的一个作为测试集,最终的评估结果为这多个模型在各自测试集上的平均评估结果

2.2.3 自助法

每次随机从数据集中取出一个数据直到补全m个新的数据集D’,一个数据未被选择的概率极限为1/3左右,将D’作为训练集,D\D’作为测试集。

2.2.4 调参与最终模型

在训练之前有许多参数可以调节例如学习率、迭代次数等,不同的参数会导致模型效果出现显著的区别.

2.3性能度量
回归任务中一般采用均方误差,主要介绍分类任务的误差
2.3.1错误率与精度

如2.1介绍

2.3.2查准率、查全率与Fl

精确率:(TP)/(TP+FP); 召回率:(TP)/(TP+FN) ; F1: 2*(R*P)/(R+P)
可以从名字记忆,精确率代表所有预测为阳性的数据真正阳性的比例
召回率代表从所有真正阳性的数据里预测为阳性的的比例,即召回了这些阳性数据