动手学数据分析05_模型搭建与评估

模型搭建与评估

1.通过前面的学习,可以对数据本身进行处理,比如数据本身的增删查补,还可以对数据清洗。

2.本章主要是使用数据,做数据分析的目的是:运用数据结合我的业务来得到某些我们需要知道的结果

3.数据分析的第一步是建模,就是搭建一个预测模型或其他模型。
第二步就是评估,从模型得到的结果,分析模型是不是足够的可靠,就需要评估。
4.模型搭建

处理完前面的数据我们就得到建模数据,下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
模型的选择一方面是通过我们的任务来决定的。
除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型
任务一:切割训练集和测试集
这里使用留出法划分数据集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现