您的位置:

Python正态分布函数的详解

一、概述

正态分布函数(也称高斯分布函数)是指在数论与统计学中常见的概率分布函数。在实际生活中,很多现象都服从正态分布,如人类的智力、身高、财富等等。而在Python中,可以通过SciPy中的stats模块来实现正态分布函数的计算。下面将从多个方面对Python正态分布函数进行详细的阐述。

二、生成正态分布随机数

要生成符合正态分布的随机数,可以使用scipy.stats模块中的norm()函数。norm()函数的默认分布为标准正态分布,即均值为0,方差为1的分布,若要自定义均值和方差,需要传入mean 和 std 参数。

from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np

# 生成10000个均值为2,方差为0.5的正态分布随机数
mu, sigma = 2, 0.5
x = norm.rvs(loc=mu, scale=sigma, size=10000)

# 绘制生成的随机数的概率分布图
count, bins, ignored = plt.hist(x, 30, density=True)
plt.plot(bins, 1/(sigma * np.sqrt(2 * np.pi)) *
               np.exp( - (bins - mu)**2 / (2 * sigma**2) ),
         linewidth=2, color='r')
plt.show()

三、计算正态分布的概率密度函数

通过norm.pdf()函数可以计算正态分布的概率密度函数值。norm.pdf()函数需要传入待计算的随机数和分布的均值与方差。

from scipy.stats import norm

# 计算随机数3在均值为2,方差为0.5的正态分布下的概率密度函数值
mu, sigma = 2, 0.5
x = 3
p = norm.pdf(x, mu, sigma)
print(p)

四、计算正态分布的累计分布函数

累计分布函数(Cumulative Distribution Function, CDF),也称分布函数,是概率论中的一种函数,对于任何实数t,它给出随机变量X ≤ t的概率。在正态分布中,CDF可以用norm.cdf()函数来计算,该函数需要传入随机数和均值、方差参数。

from scipy.stats import norm

# 计算随机数2在均值为2,方差为0.5的正态分布下的累计分布函数值
mu, sigma = 2, 0.5
x = 2
p = norm.cdf(x, mu, sigma)
print(p)

五、计算正态分布的逆函数

逆函数(Inverse function)是在数学中的一个概念,如果称连续单调函数 y = f(x) 在定义域 X 上的反函数为 y = f^(-1)(x),那么有:f^(-1)( y ) = x,其中 x∈X,y∈f(X)。

在正态分布中,逆函数可以用norm.ppf()函数来计算,该函数需要传入累计分布函数值和均值、方差参数,返回对应的随机数。

from scipy.stats import norm

# 计算累计分布函数值为0.9的随机数在均值为2,方差为0.5的正态分布中的值
mu, sigma = 2, 0.5
p = 0.9
x = norm.ppf(p, mu, sigma)
print(x)

六、拟合数据到正态分布

在实际的数据分析中,需要将一些数据拟合到正态分布中。可以通过scipy.stats模块的norm.fit()函数来实现数据的拟合,该函数需要传入待拟合的数据。

from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt

# 生成1000个随机数
mu, sigma = 0, 1
s = np.random.normal(mu, sigma, 1000)

# 拟合数据到正态分布
param = norm.fit(s)
x = np.linspace(-5, 5, 100)
pdf_fitted = norm.pdf(x, loc=param[0], scale=param[1])
plt.plot(x, pdf_fitted, 'r-', label='fitted')

# 绘制拟合后的概率分布直方图
plt.hist(s, bins=50, density=True, alpha=0.5)
plt.legend(loc='best')
plt.show()

七、总结

正态分布函数是重要的统计函数之一,在数学和统计学领域都有广泛的应用。在Python中,通过SciPy的stats模块可以方便地实现正态分布函数的计算、拟合和绘制,提高了数据分析的效率和质量。