第二章第一节数据清洗及特征处理

在开始之前肯定是要先导入包和数据了


首先通过info()函数查看一下数据信息

或者用isnull().sum()检查统计一下空值信息
image
还有一个很有趣的 是np.nan竟然是float型数据,令人无法理解。
选择数据表中的表头部分信息进行展示
image
将年龄中为空值的的项令他等于0

当然可用多种方法

面对缺失值的三种处理方法各有优劣

对于缺失值可选择删除

或者用0填充缺失值

具体可见如下示例:

可用duplicated()查看数据汇总的重复项

通过drop_duplicates()可对重复数据进行清理并返回副本,若inplace=True则是就地修改。
可通过cut函数对数据进行切块 !

!
可用qcut将变量按比例分割

接下来查看文本变量名和种类


或者用map函数进行映射转换

运用sklearn库进行编号


机器学习库还是不是很懂,还是得好好下官方文档好好研究下

从文本name中提取mr,miss,mrss等信息,

返回保存已处理表格。
image