8月吃瓜教程—task01-学习笔记

参加 Datawhale 开源组织的8月组队学习,作为初学者记录一些简单的笔记以及一些浅显的理解。


第1章 绪论

问1:什么是学习?

  • 平时生活中,我们经常在各种场合里听到学习一词,大部分时候它的意思是从外界接收知识,并且化为己用,我觉得后半句很重要,如果不能化为己用,可以称之为学习吗?
  • 机器学习(ML)中的学习者是抽象意义上的agent ,即数据处理单元,它可以是一台电脑,也可以是一个机器人。
  • ML 中的学习对象是输入的数据,或者更准确的说是数据中包含的信息,如模型等。

问2:需要掌握的基本术语表

数据集(data set) 样本(sample) 特征(feature) 训练样本(training sample)
真值(ground-truth) 分类(classification) 回归(regression) 聚类(clustering)
监督学习(supervised learning) 无监督学习(unsupervised learning) 泛化(generalization) 独立同分布(i.i.d.)
假设(hypothesis) 归纳(induction) 演绎(deduction) 版本空间(version space)
偏好(bias) 过拟合(overfitting) 欠拟合(underfitting)

问3:机器学习发展过程

  • 曲折前进
  • 三十年河东,三十年河西

问4:机器学习与互联网搜索

  • 就我个人而言,我不喜欢网站根据我的搜索或点击来聪明地给我做推荐;
  • 但是,在我想要搜索某样商品或者某个词条的时候,搜索引擎能够精准地给我想要的内容;

问5:谈谈对“没有免费的午餐”定理的看法

  • 在实际应用过程中没有太大意义;
  • 提醒每个研究者在说自己的算法的时候谦虚点;
  • 明确自己的问题之后再来谈算法。

第2章 模型评估与选择

  • agent 从数据中学习得到的模型,评价这个学习的效果就是模型评估;
  • 将模型用于真实环境用来检验其效果,模型的输出值与环境真实值之差就是泛化误差
  • 如果我们直接将泛化误差作为评价指标,那么我们需要频繁的训练模型和到真实环境测试,这样效率是不太高的;
  • 但是如果我们直接以训练过程中的拟合程度作为指标也是不行的,因为在训练过程中会出现过拟合现象,所以无法得出训练过程中拟合程度好就等价于泛化误差小的结论;
  • 所以,我们一般将数据集分成两个部分:训练集测试集 ,用训练集来得到模型,然后用测试集来评估模型;
  • 本章节还介绍了许多性能度量,等用到的时候再做具体介绍。