task1 双瓜一二章学习笔记

第一章

人工智能发展阶段 :推理期,知识期,学习期

错误率 :a/m

过拟合 :当学习器把训练样本学得太好,很可能已经把训练样本自身的一些特点当成所有潜在样本的一般性质,这样就会导致泛化性能下降,这种现象在ML里叫过拟合。

欠拟合 :指对训练样本的一般性质没学好。

评估方法1.留出法 :数据集分为训练集和测试集,采用保留类别比例的采样方式分层采样,在使用留出法时,一般要采用若干次随机划分,重复进行实验评估后取平均值作为留出法的评估结果。我们希望评估整个数据集训练出的模型的性能,但是因为要拆分,训练集大的时候,模型更接近D训练出来的模型,但是测试集太小,评估结果可能不够稳定准确;若令测试集大,则训练集与D的差距更大了,被评估的模型与用D训练出来的模型相比可能有较大差别,从而降低了评估结果的保真性。2.交叉验证法 将数据集划分为K个大小相似的互斥子集,每个子集都用分层抽样得到,即尽可能保持数据分布的一致性,然后,每次用k-1个子集的并集作为训练集。余下的子集作为测试集,这样就可以获得k组训练集/测试集,从而进行k次训练和测试,最终返回的是k个测试结果的均值。k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,如常见的10次10折交叉验证。假设D中有m个样本,若k=m,则得到交叉验证法的一个特例,留一法。留一法的好处是被评估的模型与期望评估的用D训练出的模型很相似,因此结果往往被认为比较准确,但是如果数据集比较大时,训练m个模型的计算开销是难以忍受的。3.自助法booststrapping, 给定包含m个样本的数据集D,我们对它进行采样产生数据集D’:具体操作为,每次随机从D里选一个样本,将其拷贝放入D’中,然后再将该样本放回初始数据集D中,使得该样本在下一次采样时仍有可能被采到,这个过程重复m次后,我们就得到了包含m个样本的数据集D’,这就是自主采样的结果。显然,D中一部分样本可能不会在D’中出现。样本在m次采样中始终不被采到的概率为1-1/m之差的m次方,取极限等于1/e,故初始数据集D中约有36.8%的样本未出现在D’中,于是我们可以将D’做训练集,D-D’做测试集,如此以来,我们实际评估的模型与期望评估的模型都使用m个训练样本,而我们仍有数据总量1/3 的,没在训练集D’中出现的那部分样本用于测试。自助法在数据集较小,难以有效划分训练/测试集时很有用。然后自助法产生的D’,改变了初始数据集的分布,引入估计偏差,因此,在初始数据量足够时,留出法和交叉验证常用一些。模型评估与选择中用于评估测试的数据集常称为“验证集”。

性能度量: 错误率与精度;查准率P查全率R与F1,P是预测为正例的结果中确实是正例的比例,R是实际是正例的结果中被预测为正例的比例,一个学习器的PR曲线能将另一个的曲线包住,则称前者的性能更优,平衡点是P=R的点,这个点的取值越大越好,F1=2PR/(P+R),F1是P和R的调和平均。Fbeta=(1+beta^2)PR/(beta^2P)+R,beta越大,R越重要。