pandas数据清洗(缺失值和重复值的处理) |
||||||||||||||||||||||||||||||
目录
前言pandas对大数据有很多便捷的清洗用法,尤其针对缺失值和重复值。缺失值就不用说了,会影响计算,重复值有时候可能并未带来新的信息反而增加了计算量,所以有时候要进行处理。针对一些文本数据可能不合要求的还要进行替换什么的。 首先导入包:
?
缺失值处理 一般使用特殊类型 NaN 代表缺失值,可以用 Numpy 可定义它np.NaN/np.nan。在 Pandas 1.0 以后实验性地使用一个标量 pd.NA 来代表。
?
缺失值的判断#可以判断是否缺失值,DataFrame 和 Series 一般都支持。:
?
?
?
?
其他方法:
?
缺失值统计
?
缺失值筛选
?
缺失值类型
?
#整型中的缺失值,由于 NaN 是浮点型,因此一列甚至缺少一个整数的整数列都将转换为浮点陆零网络,。
?
插入缺失值
?
缺失值填充首先生成案例数据:
?
fillna(x) 可以将缺失值填充指定的值。以下为几种常见的填充方法:
?
不指定值,使用一定的方法。
?
使用计算值填充:
|