outliers的多方面探讨

发布时间:2023-05-19

一、outliers的定义及常见表现形式

Outlier指的是在样本中分布不同于其他数据点的极端值。其表现形式有以下几种: 1、数据分布不均:outliers会导致整个数据集的分布变得不均匀,从而对单样本或整体分析产生影响。

  <div class="container">
    <div class="chart"></div>
  </div>
.chart {
  width: 100%;
  vertical-align: top;
}

2、偏差值较大:outliers对数据的平均值和标准差产生大的偏差,可能会误导数据分析的结论。

  var data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1000];
  function getAvg(data) {
    var sum = 0;
    data.forEach(function(num) {
      sum += num;
    });
    return sum / data.length;
  }

3、离散程度较大:outliers会导致方差值的急剧升高,进而使数据的离散程度变得更大。

  function getVariance(data) {
    var mean = getAvg(data);
    var sum = 0;
    data.forEach(function(num) {
      sum += Math.pow((num - mean), 2);
    });
    return sum / (data.length - 1);
  }

二、outliers的识别方法与常见工具

1、箱线图 箱线图可以很好地识别数据中的outliers。箱子代表数据分布的中间50%部分,其上面的线表示数据中的第75个百分位,下面的线表示数据中的第25个百分位。在不考虑outliers的情况下,位于这个范围之外的点可能是outliers。

  <div class="container">
    <svg width="500" height="500">
      <line x1="20" y1="250" x2="480" y2="250" stroke="gray" />
      <line x1="20" y1="100" x2="480" y2="100" stroke="gray" />
      <line x1="20" y1="400" x2="480" y2="400" stroke="gray" />
      <line x1="20" y1="250" x2="20" y2="400" stroke="gray" />
      <line x1="20" y1="250" x2="20" y2="100" stroke="gray" />
      <rect x="100" y="150" width="300" height="200" stroke="black" fill="transparent" />
      <line x1="100" y1="250" x2="400" y2="250" stroke="black" />
      <line x1="200" y1="150" x2="200" y2="350" stroke="black" />
      <line x1="300" y1="150" x2="300" y2="350" stroke="black" />
    </svg>
  </div>

2、离群值检查器:该库可用于在给定的数据集中查找离群值。

  const Outlier = require('outlier');
  const data = [10, 12, 20, 45, 1000, 1020];
  const outlier = new Outlier();
  const results = outlier.save(data).analyze();
  console.log(results);

3、对数容忍:该算法通过对数据进行对数变换来发现outliers并确定其相对程度。

  function getLogTolerance(data, factor) {
    const mean = getAvg(data);
    const stdev = Math.sqrt(getVariance(data));
    return data.map(x => Math.abs(x - mean)).map(x => x / stdev).map(x => Math.log(1 + factor * x));
  }

三、outliers应用实践与解决方法

1、数据清洗:将outliers从数据集中移除。这可以通过使用各种技术(如InterQuartile Range等)来识别和删除异常值来实现。

  function removeOutliers(data) {
    const q1 = quantile(data, 0.25);
    const q3 = quantile(data, 0.75);
    const iqr = q3 - q1;
    const minimum = q1 - 1.5 * iqr;
    const maximum = q3 + 1.5 * iqr;
    return data.filter(x => x >= minimum && x <= maximum);
  }

2、数据转换:使用基于对数或指数的转换来调整数据,以保留outliers的贡献同时减弱其对平均值和方差的影响。

  function processOutliers(data) {
    const transformedData = data.map(x => Math.log(x + 1));
    const mean = getAvg(transformedData);
    const stdev = Math.sqrt(getVariance(transformedData));
    return data.map(x => x > mean + 1.5 * stdev ? mean + 1.5 * stdev : x);
  }

3、建模技术:一些机器学习和数据挖掘技术,如聚类和异常检测,可以识别和排除outliers。

  from sklearn.covariance import EllipticEnvelope
  import numpy as np
  data = np.array([[-2, 2], [2, 2], [0, 4], [0, 12]])
  model = EllipticEnvelope(contamination=0.25)
  model.fit(data)
  inliers = np.asarray(model.predict(data) == 1)
  outliers = np.asarray(model.predict(data) == -1)