一、简介

Python float NaN指的是“Not a Number”，即不是数字的浮点数值。通常出现在交叉验证等机器学习应用场景中。Python浮点数的NaN值是可以通过math.nan或float('nan')方法创建出来的。这个NaN值可以与其他数字进行比较，但是却不能和自身进行比较。让我们来看一个例子：

import math
a = float('nan')
b = float('nan')
c = 1.0
print(a == b) # False
print(a == a) # False
print(math.isnan(a)) # True
print(c > a) # False

二、原理

Python 中的 NaN 与 IEEE 754 标准中的 NaN 实现基本相同。 IEEE 754 中只定义了双精度（double precision）的 NaN，但使用时需注意单精度（float）的 NaN 实现也与双精度相同，仅数字精度不同。 IEEE 754 中，NaN 有两种类型：一种是 quiet NaN（QNaN）；一种是 signaling NaN（SNaN）。 QNaN 表示的是未定义或不适用的操作产生的结果。它可以被改变为 SNaN。 SNaN 表示的是尝试执行结果未定义的操作时产生的 NaN，默认情况下，Python 只会使用 quiet NaN。SNaN 只应该在调试和特定应用中使用。有一些操作可以产生 NaN，包括：

除以 0
0 除以 0
无穷 / 无穷
无穷 - 无穷
负数的平方根

三、应用

NaN 在机器学习中可用于以下用途：

缺失值的填充，即将列中的缺失值替换为 NaN。
标记异常值，如数据集中的远离均值的极端值可以被标记为 NaN。
简化数据处理，当需要忽略一些数据点时，可将其替换为NaN，减少对其他数据的干扰。

四、使用示例

1. 缺失值填充

在数据分析中，经常会遇到一些缺失值需要填充。通过将缺失值替换为 NaN，在分析中可以方便地使用 df.isna() 或 df.isnull() 进行识别。

import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
        'age': [28, 25, np.nan, 22],
        'salary': [3000, 5000, np.nan, 8000]}
df = pd.DataFrame(data)
print(df)
df.fillna(value=np.nan, inplace=True)
print(df)

2. 标记异常值

有些数据集中可能存在一些离群值，将其用 NaN 标记，可以在分析中忽略这些数据点，并且不会对其他数据造成干扰。

import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
        'age': [28, 25, 500, 22],
        'salary': [3000, 5000, 10000, 8000]}
df = pd.DataFrame(data)
print(df)
df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
print(df)

3. 简化数据处理

有些数据点会对分析造成干扰，这时可以将其替换为 NaN，这样在分析时就不会考虑这些特殊情况，避免对其他数据产生影响。

import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
        'age': [28, 25, 500, 22],
        'salary': [3000, 5000, 10000, 8000]}
df = pd.DataFrame(data)
print(df)
df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
df['salary'] = np.where(df['salary'] > 10000, np.nan, df['salary'])
print(df)

Python Float NaN