动手学数据分析2

  1. 第一节的内容主要是对上次学习载入数据集的初步清洗;可以观察到数据中有些列存在空值,而空值无法在后续模型中起到任何作用,所以我们必须首先清洗掉这些空值,首先对于关键列,如果非常关键的列存在空值,而我们通过初步判断如果该列缺失则是无效数据样本的话,则应该采取去除样本的操作;如果是由于取材等原因导致的非致命缺失值的话,则可以通过赋值或者插值的方式进行填充处理;
  2. 第二三节的内容是数据重构,主要学习如何从不同维度组合DataFrame,以及如何通过按列值分组的方式进行初步统计,得到一些初步的信息;
  3. 第四节主要是承接上节内容,在得到一些初步统计信息的基础上,如何使用画图呈现的方式将其可视化展示出来,这一节内容与日常工作贴合,学习了几种常见的作图方式,虽然很平常,但是非常直观实用,能够第一直觉给别人呈现数据内在蕴含的信息。