您的位置:

用Python实现数值缩放

一、什么是数值缩放

在数据分析中,数值缩放是指将数据的数值按照一定的比例缩小或者放大,以达到更好的数据分析效果。缩放的目的是消除数据之间的单位差异,使得各个属性对结果的影响具有可比性和可解释性。在机器学习中,进行数值缩放是很重要的一个步骤,因为不同特征之间的量纲和取值范围可能相差很大,缩放后有利于提升模型的性能。

二、数值缩放的方法

常见的数值缩放方法有两种:min-max标准化和z-score标准化。

1. min-max标准化

min-max标准化,又称极差标准化,是指对原始数据进行线性变换,将数据映射到[0, 1]的范围内。这种方法适用于数据分布没有明显边界的情况,即数据的最大值和最小值不存在或有极大的离群值的情况,例如人口密度等。

import numpy as np
 
def min_max_scale(X):
    return (X - np.min(X, axis=0)) / (np.max(X, axis=0) - np.min(X, axis=0))

2. z-score标准化

z-score标准化,也称为标准差标准化,是指对原始数据进行线性变换,将数据映射到均值为0,标准差为1的正态分布上。这种方法适用于数据分布有明显的边界,可能存在离群值的情况,例如考试分数、股票收益率等。

def z_score_scale(X):
    return (X - np.mean(X, axis=0)) / np.std(X, axis=0)

三、应用场景

数据缩放得到的新值范围在0到1之间,使得数据不会受个别变量的极端取值的影响。建议在 SVM、KNN、线性回归、Logistic回归、神经网络、K-means聚类等算法中使用数值缩放。

举个例子,假设有一组数据,包含两个特征值,第一个特征值的取值范围在[1,10000]之间,第二个特征值的取值范围在[0,1]之间。如果不对这些数据进行缩放,第一个特征值对结果的影响将会远大于第二个特征值,而缩放后两者的重要性将会更加均衡。

X = np.array([[1, 0.5], [10000, 0], [5000, 1]])
 
# 原始数据
print(X)
 
# min-max缩放后数据
print(min_max_scale(X))
 
# z-score缩放后数据
print(z_score_scale(X))

以上代码输出的结果为:

[[1.0, 0.5]
 [10000.0, 0.0]
 [5000.0, 1.0]]
 
[[0.0, 0.5]
 [1.0, 0.0]
 [0.49975, 1.0]]
 
[[-0.7071, 0.0]
 [1.4142, -1.2247]
 [0.2928, 1.2247]]

四、总结

在数据分析和机器学习中进行数值缩放是一个很重要的步骤,可以消除数据之间的单位差异,使得数据更具有可比性和可解释性,并且提升机器学习算法的性能。化繁为简,使用Python中的numpy库可以轻松实现min-max标准化和z-score标准化,方便且高效。