一、outliers的定义及常见表现形式
Outlier指的是在样本中分布不同于其他数据点的极端值。其表现形式有以下几种: 1、数据分布不均:outliers会导致整个数据集的分布变得不均匀,从而对单样本或整体分析产生影响。
<div class="container">
<div class="chart"></div>
</div>
.chart {
width: 100%;
vertical-align: top;
}
2、偏差值较大:outliers对数据的平均值和标准差产生大的偏差,可能会误导数据分析的结论。
var data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1000];
function getAvg(data) {
var sum = 0;
data.forEach(function(num) {
sum += num;
});
return sum / data.length;
}
3、离散程度较大:outliers会导致方差值的急剧升高,进而使数据的离散程度变得更大。
function getVariance(data) {
var mean = getAvg(data);
var sum = 0;
data.forEach(function(num) {
sum += Math.pow((num - mean), 2);
});
return sum / (data.length - 1);
}
二、outliers的识别方法与常见工具
1、箱线图 箱线图可以很好地识别数据中的outliers。箱子代表数据分布的中间50%部分,其上面的线表示数据中的第75个百分位,下面的线表示数据中的第25个百分位。在不考虑outliers的情况下,位于这个范围之外的点可能是outliers。
<div class="container">
<svg width="500" height="500">
<line x1="20" y1="250" x2="480" y2="250" stroke="gray" />
<line x1="20" y1="100" x2="480" y2="100" stroke="gray" />
<line x1="20" y1="400" x2="480" y2="400" stroke="gray" />
<line x1="20" y1="250" x2="20" y2="400" stroke="gray" />
<line x1="20" y1="250" x2="20" y2="100" stroke="gray" />
<rect x="100" y="150" width="300" height="200" stroke="black" fill="transparent" />
<line x1="100" y1="250" x2="400" y2="250" stroke="black" />
<line x1="200" y1="150" x2="200" y2="350" stroke="black" />
<line x1="300" y1="150" x2="300" y2="350" stroke="black" />
</svg>
</div>
2、离群值检查器:该库可用于在给定的数据集中查找离群值。
const Outlier = require('outlier');
const data = [10, 12, 20, 45, 1000, 1020];
const outlier = new Outlier();
const results = outlier.save(data).analyze();
console.log(results);
3、对数容忍:该算法通过对数据进行对数变换来发现outliers并确定其相对程度。
function getLogTolerance(data, factor) {
const mean = getAvg(data);
const stdev = Math.sqrt(getVariance(data));
return data.map(x => Math.abs(x - mean)).map(x => x / stdev).map(x => Math.log(1 + factor * x));
}
三、outliers应用实践与解决方法
1、数据清洗:将outliers从数据集中移除。这可以通过使用各种技术(如InterQuartile Range等)来识别和删除异常值来实现。
function removeOutliers(data) {
const q1 = quantile(data, 0.25);
const q3 = quantile(data, 0.75);
const iqr = q3 - q1;
const minimum = q1 - 1.5 * iqr;
const maximum = q3 + 1.5 * iqr;
return data.filter(x => x >= minimum && x <= maximum);
}
2、数据转换:使用基于对数或指数的转换来调整数据,以保留outliers的贡献同时减弱其对平均值和方差的影响。
function processOutliers(data) {
const transformedData = data.map(x => Math.log(x + 1));
const mean = getAvg(transformedData);
const stdev = Math.sqrt(getVariance(transformedData));
return data.map(x => x > mean + 1.5 * stdev ? mean + 1.5 * stdev : x);
}
3、建模技术:一些机器学习和数据挖掘技术,如聚类和异常检测,可以识别和排除outliers。
from sklearn.covariance import EllipticEnvelope
import numpy as np
data = np.array([[-2, 2], [2, 2], [0, 4], [0, 12]])
model = EllipticEnvelope(contamination=0.25)
model.fit(data)
inliers = np.asarray(model.predict(data) == 1)
outliers = np.asarray(model.predict(data) == -1)