皮尔逊相关系数python实现的简单介绍

本文目录一览：

1、pytnon中如何计算皮尔逊的p值
2、Python气象数据处理与绘图(2)：常用数据计算方法
3、初学python，怎样用python做pearson相关系数的检验呢，求指导啊
4、相关性系数介绍+python代码实现 correlation analysis

pytnon中如何计算皮尔逊的p值

如何理解皮尔逊相关系数（Pearson Correlation Coefficient）？

皮尔逊相关系数理解有两个角度

其一, 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数

Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理)

标准差则等于变量减掉平均数的平方和,再除以样本数,最后再开方.

所以, 根据这个最朴素的理解,我们可以将公式依次精简为:

其二, 按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦.

皮尔逊相关的约束条件

从以上解释, 也可以理解皮尔逊相关的约束条件:

1 两个变量间有线性关系

2 变量是连续变量

3 变量均符合正态分布,且二元分布也符合正态分布

4 两变量独立

在实践统计中,一般只输出两个系数,一个是相关系数,也就是计算出来的相关系数大小,在-1到1之间;另一个是独立样本检验系数,用来检验样本一致性.

先举个手算的例子

使用维基中的例子:

例如，假设五个国家的国民生产总值分别是1、2、3、5、8（单位10亿美元），又假设这五个国家的贫困比例分别是11%、12%、13%、15%、18%。

创建2个向量.(R语言)

x-c(1,2,3,5,8)

y-c(0.11,0.12,0.13,0.15,0.18)

按照维基的例子,应计算出相关系数为1出来.我们看看如何一步一步计算出来的.

x的平均数是:3.8

y的平均数是0.138

所以,

sum((x-mean(x))*(y-mean(y)))=0.308

用大白话来写就是:

(1-3.8)*(0.11-0.138)=0.0784

(2-3.8)*(0.12-0.138)=0.0324

(3-3.8)*(0.13-0.138)=0.0064

(5-3.8)*(0.15-0.138)=0.0144

(8-3.8)*(0.18-0.138)=0.1764

0.0784+0.0324+0.0064+0.0144+0.1764=0.308

同理, 分号下面的,分别是:

sum((x-mean(x))^2)=30.8 sum((y-mean(y))^2)= 0.00308

用大白话来写,分别是:

(1-3.8)^2=7.84 #平方

(2-3.8)^2=3.24 #平方

(3-3.8)^2=0.64 #平方

(5-3.8)^2=1.44 #平方

(8-3.8)^2=17.64 #平方

7.84+3.24+0.64+1.44+17.64=30.8

同理,求得:

sum((y-mean(y))^2)= 0.00308

然后再开平方根,分别是:

30.8^0.5=5.549775 0.00308^0.5=0.05549775

用分子除以分母,就计算出最终结果:

0.308/(5.549775*0.05549775)=1

再举个简单的R语言例子(R在这里下载: )

假设有100人, 一组数据是年龄,平均年龄是35岁,标准差是5岁;另一组数据是发帖数量,平均帖子数量是45份post,标准差是8份帖子.

假设这两组都是正态分布.我们来求这两者的皮尔逊相关系数,R脚本如下:

x-rnorm(n=100,mean=35,sd=5) #创建一组平均数为35,标准差为5,样本数为100的随机数

y-rnorm(n=100,mean=45,sd=8) #创建一组平均数为45,标准差为8,样本数为100的随机数

cor.test(x,y,method="pearson") #计算这两组数的相关,并进行T检验

然后R输出结果为:

Pearson's product-moment correlation

data: x and y

t = -0.0269, df = 98, p-value = 0.9786

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

-0.1990316 0.1938019

sample estimates:

cor

-0.002719791

当然,这里是随机数.也可以用非随机的验证一下计算.

皮尔逊相关系数用于网站开发

直接将R与Ruby关联起来

调用很简单,仿照上述例子:

cor(x,y)

就输出系数结果了.

有这么几个库可以参考:

...

说明, 以上为ruby调用库. pythone程序员可以参考: Rpy ()

简单的相关系数的分类

0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关或无相关

ps : 这个网站开发者不要再次发明轮子,本来用markdown语法写作很爽,结果又不得不花时间来改动.请考虑尽快支持Markdown语法.

皮尔森相关系数的就是

x和y的协方差/(x的标准差∗y的标准差)

判断两组数的线性关系程度。

皮尔逊相关系数python实现的简单介绍

Python气象数据处理与绘图(2)：常用数据计算方法

对于气象绘图来讲，第一步是对数据的处理，通过各类公式，或者统计方法将原始数据处理为目标数据。

按照气象统计课程的内容，我给出了一些常用到的统计方法的对应函数：

在计算气候态，区域平均时均要使用到求均值函数，对应NCL中的dim_average函数，在python中通常使用np.mean()函数

numpy.mean(a, axis, dtype)

假设a为[time,lat,lon]的数据，那么

需要特别注意的是，气象数据中常有缺测，在NCL中，使用求均值函数会自动略过，而在python中，当任意一数与缺测(np.nan)计算的结果均为np.nan，比如求[1,2,3,4，np.nan]的平均值，结果为np.nan

因此，当数据存在缺测数据时，通常使用np.nanmean()函数，用法同上，此时[1,2,3,4，np.nan]的平均值为(1+2+3+4)/4 = 2.5

同样的，求某数组最大最小值时也有np.nanmax(), np.nanmin()函数来补充np.max(), np.min()的不足。

其他很多np的计算函数也可以通过在前边加‘nan’来使用。

另外，

也可以直接将a中缺失值全部填充为0。

np.std(a, axis, dtype)

用法同np.mean()

在NCL中有直接求数据标准化的函数dim_standardize()

其实也就是一行的事，根据需要指定维度即可。

皮尔逊相关系数：

相关可以说是气象科研中最常用的方法之一了，numpy函数中的np.corrcoef(x, y)就可以实现相关计算。但是在这里我推荐scipy.stats中的函数来计算相关系数：

这个函数缺点和有点都很明显，优点是可以直接返回相关系数R及其P值，这避免了我们进一步计算置信度。而缺点则是该函数只支持两个一维数组的计算，也就是说当我们需要计算一个场和一个序列的相关时，我们需要循环来实现。

其中a[time,lat,lon]，b[time]

(NCL中为regcoef()函数)

同样推荐Scipy库中的stats.linregress(x,y)函数：

slop: 回归斜率

intercept：回归截距

r_value：相关系数

p_value： P值

std_err：估计标准误差

直接可以输出P值，同样省去了做置信度检验的过程，遗憾的是仍需同相关系数一样循环计算。

初学python，怎样用python做pearson相关系数的检验呢，求指导啊

scipy.stats.pearsonr(x, y)

x和y为相同长度的两组数据

返回值 r, p-value

r是相关系数，取值-1~1. 表示线性相关程度

p-value越小，表示相关程度越显著。按照文档的说法“The p-values are not entirely reliable but are probably reasonable for datasets larger than 500 or so.”，p-value在500个样本值以上有较高的可靠性

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

皮尔逊相关系数python实现的简单介绍

本文目录一览：

pytnon中如何计算皮尔逊的p值

Python气象数据处理与绘图(2)：常用数据计算方法

初学python，怎样用python做pearson相关系数的检验呢，求指导啊

相关性系数介绍+python代码实现 correlation analysis

皮尔逊相关系数python实现的简单介绍

皮尔逊相似度的详细解析

python去求相关系数（python去求相关系数矩阵）

python的相关性,python计算相关性的函数

皮尔森相关性

python使用笔记23的简单介绍

ggcor：R语言中用于计算相关系数的全能函数

Stata命令相关性分析

c语言之父肯汤姆逊的简单介绍

python中corr的min（python dfcorr）

python笔记第六天,python第六周笔记

python天气折线图,python折线图函数

重拾python笔记三的简单介绍

第1章python简介（python第一章笔记）

python的用法笔记本（笔记本学python）

python学习之笔记（python的笔记）

python使用笔记006的简单介绍

我的python笔记06（Python）

使用布尔mas的python的简单介绍

威尔逊定理

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

皮尔逊相关系数python实现的简单介绍

本文目录一览：

pytnon中如何计算皮尔逊的p值

Python气象数据处理与绘图(2)：常用数据计算方法

初学python，怎样用python做pearson相关系数的检验呢，求指导啊

相关性系数介绍+python代码实现 correlation analysis

皮尔逊相关系数python实现的简单介绍

皮尔逊相似度的详细解析

python去求相关系数（python去求相关系数矩阵）

python的相关性,python计算相关性的函数

皮尔森相关性

python使用笔记23的简单介绍

ggcor：R语言中用于计算相关系数的全能函数

Stata命令相关性分析

c语言之父肯汤姆逊的简单介绍

python中corr的min（python dfcorr）

python笔记第六天,python第六周笔记

python天气折线图,python折线图函数

重拾python笔记三的简单介绍

第1章python简介（python第一章笔记）

python的用法笔记本（笔记本学python）

python学习之笔记（python的笔记）

python使用笔记006的简单介绍

我的python笔记06（Python）

使用布尔mas的python的简单介绍

威尔逊定理

人机检测，请谅解