一、什么是数据缺失
数据缺失指的是数据集中的某些属性值或者整行数据缺失的情况。在实际应用中,数据缺失是很常见的情况。缺失值可能是由人为的数据输入错误、数据采集的限制、传输数据时出错等原因造成的。
缺失数据在进行数据分析或建立模型的时候会影响数据的准确性和健壮性。因此需要对数据缺失进行填充。
二、数据缺失填充的方法
常见的数据缺失值填充方法包括均值填充、中位数填充、众数填充、插值法、随机森林等方法。
三、Python实现数据缺失值填充
Python作为一种流行的编程语言,可以非常方便地实现数据缺失值填充。
1. 均值填充
均值填充方法是将缺失值用该列的均值来进行填充。代码如下:
import pandas as pd import numpy as np #生成含有缺失值的DataFrame df = pd.DataFrame(np.random.randn(10, 3), columns=['A', 'B', 'C']) df.iloc[3:5, 0] = np.nan df.iloc[4:6, 1] = np.nan df.iloc[5:8, 2] = np.nan print(df) #使用均值填充 df.fillna(df.mean(), inplace=True) print(df)
2. 中位数填充
中位数填充方法是将缺失值用该列的中位数来进行填充。代码如下:
import pandas as pd import numpy as np #生成含有缺失值的DataFrame df = pd.DataFrame(np.random.randn(10, 3), columns=['A', 'B', 'C']) df.iloc[3:5, 0] = np.nan df.iloc[4:6, 1] = np.nan df.iloc[5:8, 2] = np.nan print(df) #使用中位数填充 df.fillna(df.median(), inplace=True) print(df)
3. 众数填充
众数填充方法是将缺失值用该列的众数来进行填充。代码如下:
import pandas as pd import numpy as np #生成含有缺失值的DataFrame df = pd.DataFrame(np.random.randn(10, 3), columns=['A', 'B', 'C']) df.iloc[3:5, 0] = np.nan df.iloc[4:6, 1] = np.nan df.iloc[5:8, 2] = np.nan print(df) #使用众数填充 df.fillna(df.mode().iloc[0], inplace=True) print(df)
4. 插值法填充
插值法填充方法是利用数据之间的关系,对缺失值进行插值处理。常见的插值方法有线性插值、多项式插值、样条插值等。代码如下:
import pandas as pd import numpy as np #生成含有缺失值的DataFrame df = pd.DataFrame(np.random.randn(10, 3), columns=['A', 'B', 'C']) df.iloc[3:5, 0] = np.nan df.iloc[4:6, 1] = np.nan df.iloc[5:8, 2] = np.nan print(df) #使用线性插值填充 df.interpolate(method='linear', inplace=True) print(df)
5. 随机森林填充
随机森林填充方法是利用随机森林算法对数据进行建模预测,从而得到缺失值的填充。代码如下:
import pandas as pd import numpy as np from sklearn.ensemble import RandomForestRegressor #生成含有缺失值的DataFrame df = pd.DataFrame(np.random.randn(10, 3), columns=['A', 'B', 'C']) df.iloc[3:5, 0] = np.nan df.iloc[4:6, 1] = np.nan df.iloc[5:8, 2] = np.nan print(df) #利用随机森林算法填充缺失值 def fill_with_rf(df): fill_df = df.copy() #获取含有缺失值的列 missing_col = fill_df.columns[fill_df.isnull().any()] for col in missing_col: #将非缺失值列作为特征矩阵 X_train = fill_df.loc[fill_df[col].notnull()].drop(col, axis=1) #将缺失值列作为目标标量 y_train = fill_df.loc[fill_df[col].notnull(), col] #建立随机森林回归模型 rf = RandomForestRegressor(n_estimators=100, random_state=0) rf.fit(X_train, y_train) #预测缺失值 fill_df.loc[fill_df[col].isnull(), col] = rf.predict(fill_df.loc[fill_df[col].isnull()].drop(col, axis=1)) return fill_df df_filled = fill_with_rf(df) print(df_filled)
四、总结
在数据分析和建模过程中,常常需要处理数据集中的缺失值。本文介绍了常见的几种缺失值填充方法,并使用Python语言编写代码实现了这些方法。使用这些方法可以对数据集中的缺失值进行有效的填充,提高数据的准确性和健壮性。