3

【scikit-learn基础】--『预处理』之 缺失值处理 - wang_yb

 8 months ago
source link: https://www.cnblogs.com/wang_yb/p/17921351.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

数据的预处理是数据分析,或者机器学习训练前的重要步骤。
通过数据预处理,可以

  • 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
  • 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
  • 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效

本篇介绍的缺失值处理,是数据预处理中非常重要的一步,因为很多机器学习算法都假设数据是完整的,算法的执行过程中没有考虑缺失值的影响。
所以,为了提高数据质量、改进数据分析结果、提高数据挖掘和机器学习的效果,缺失值处理必不可少。

处理缺失值的手段大致有4类

  1. 删除存在缺失值数据行
  2. 填充缺失值
  3. 不处理缺失值
  4. 用深度学习方法处理

1.1. 删除缺失值数据

删除缺失值是最简单的一种处理方式,不过,在某些情况下,这可能会导致数据的大量丢失。
如果数据丢失过多,可能会改变数据的分布,影响模型的准确性。

所以,只有在缺失值占比很小的情况下,才会考虑使用这种处理方式。
删除缺失值用pandas库的方法即可,比如:

import pandas as pd

df = pd.util.testing.makeMissingDataframe()
print("删除前: {} 行".format(len(df)))

df = df.dropna()
print("删除后: {} 行".format(len(df)))

# 运行结果
删除前: 30 行
删除后: 19 行

1.2. 填充缺失值

直接删除存在缺失值的数据行虽然简单,但是在实际应用中,使用的并不多。
实际情况下,使用最多的还是填充缺失值。

scikit-learn库中,填充缺失值的方式主要有:

1.2.1. 均值填充

均值填充就是用缺失值所在列的平均值来填充缺失值。

from sklearn.impute import SimpleImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])
print("均值填充前:\n{}".format(data))

imp = SimpleImputer(missing_values=np.nan, strategy="mean")
data = imp.fit_transform(data)
print("均值填充后:\n{}".format(data))

# 运行结果
均值填充前:
[[ 1.  2.  3.]
 [ 4. nan  6.]
 [ 7.  8. nan]]
均值填充后:
[[1.  2.  3. ]
 [4.  5.  6. ]
 [7.  8.  4.5]]

填充的54.5分别是第二列第三列的平均值。

1.2.2. 中位数填充

中位数填充就是用缺失值所在列的中位数来填充缺失值。

from sklearn.impute import SimpleImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 11, 12]])
print("中位数填充前:\n{}".format(data))

imp = SimpleImputer(missing_values=np.nan, strategy="median")
data = imp.fit_transform(data)
print("中位数填充后:\n{}".format(data))

# 运行结果
中位数填充前:
[[ 1.  2.  3.]
 [ 4. nan  6.]
 [ 7.  8. nan]
 [10. 11. 12.]]
中位数填充后:
[[ 1.  2.  3.]
 [ 4.  8.  6.]
 [ 7.  8.  6.]
 [10. 11. 12.]]

填充的86分别是第二列第三列的中位数。

1.2.3. 众数填充

众数填充就是用缺失值所在列的众数数来填充缺失值。

from sklearn.impute import SimpleImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 8, 3]])
print("众数填充前:\n{}".format(data))

imp = SimpleImputer(missing_values=np.nan, strategy="most_frequent")
data = imp.fit_transform(data)
print("众数填充后:\n{}".format(data))

# 运行结果
众数填充前:
[[ 1.  2.  3.]
 [ 4. nan  6.]
 [ 7.  8. nan]
 [10.  8.  3.]]
众数填充后:
[[ 1.  2.  3.]
 [ 4.  8.  6.]
 [ 7.  8.  3.]
 [10.  8.  3.]]

填充的83分别是第二列第三列的众数。

1.2.4. 常量填充

常量填充就是用指定的常量来填充缺失值。

from sklearn.impute import SimpleImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])
print("常量填充前:\n{}".format(data))

imp = SimpleImputer(missing_values=np.nan, fill_value=100, strategy="constant")
data = imp.fit_transform(data)
print("常量填充后:\n{}".format(data))

# 运行结果
常量填充前:
[[ 1.  2.  3.]
 [ 4. nan  6.]
 [ 7.  8. nan]]
常量填充后:
[[  1.   2.   3.]
 [  4. 100.   6.]
 [  7.   8. 100.]]

缺失值用常量100填充了。

1.2.5. 插值填充

插值填充就是使用线性插值或多项式插值等方法,基于已知的数据点估计缺失值。

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])
print("插值填充前:\n{}".format(data))

imp = IterativeImputer(max_iter=10, random_state=0)
data = imp.fit_transform(data)
print("插值填充后:\n{}".format(data))

# 运行结果
插值填充前:
[[ 1.  2.  3.]
 [ 4. nan  6.]
 [ 7.  8. nan]]
插值填充后:
[[1.         2.         3.        ]
 [4.         5.00203075 6.        ]
 [7.         8.         8.99796726]]

1.2.6. K近邻填充

K近邻填充就是利用K近邻算法,找到与缺失值最近的K个数据点,用它们的值的平均数或中位数来填充缺失值。

from sklearn.impute import KNNImputer  

data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 11, 12]])
print("K近邻填充前:\n{}".format(data))

imp = KNNImputer(n_neighbors=2)  
data = imp.fit_transform(data)
print("K近邻填充后:\n{}".format(data))

# 运行结果
K近邻填充前:
[[ 1.  2.  3.]
 [ 4. nan  6.]
 [ 7.  8. nan]
 [10. 11. 12.]]
K近邻填充后:
[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]

缺失值处理的主要作用包括:

  1. 提高数据完整性和准确性:如果数据中存在缺失值,可能会影响分析的准确性,甚至导致错误的结论。因此,通过填补缺失值,我们可以确保数据的完整性和准确性。
  2. 提升数据质量:缺失值可能会降低数据的质量,使得数据分析变得更为困难。通过处理缺失值,我们可以提升数据的质量,使得分析结果更加可靠。
  3. 提高算法性能:许多机器学习和数据挖掘算法在处理不完整数据时性能会下降。处理缺失值可以使得这些算法更好地运行,提高其性能。
  4. 减少信息丢失:在某些情况下,缺失值可能代表着某些信息的丢失。通过对这些缺失值进行处理,我们可以尽量减少信息丢失的数量。
  5. 消除或减少噪声:缺失值的存在可能会引入数据中的噪声,这种噪声可能会对数据分析产生干扰,甚至影响模型的训练效果。通过填补这些缺失值,我们可以消除或减少这种噪声。

在选择处理缺失值的方法时,需要考虑数据的性质、缺失值的比例、数据的分布以及具体的分析任务等因素。
同时,不同的方法可能适用于不同的场景,需要结合具体情况进行选择。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK