logo
导航

协方差与相关系数

协方差的定义

协方差的数学定义

定义:设 XXYY 是两个随机变量,如果 E(X)E(X)E(Y)E(Y) 都存在,则称: Cov(X,Y)=E[(XE(X))(YE(Y))]Cov(X,Y) = E[(X - E(X))(Y - E(Y))]

XXYY协方差

协方差的计算公式

离散型随机变量Cov(X,Y)=i,j(xiE(X))(yjE(Y))P(X=xi,Y=yj)Cov(X,Y) = \sum_{i,j} (x_i - E(X))(y_j - E(Y))P(X = x_i, Y = y_j)

连续型随机变量Cov(X,Y)=++(xE(X))(yE(Y))f(x,y)dxdyCov(X,Y) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} (x - E(X))(y - E(Y))f(x,y) dx dy

协方差的简化计算公式

公式Cov(X,Y)=E(XY)E(X)E(Y)Cov(X,Y) = E(XY) - E(X)E(Y)

证明Cov(X,Y)=E[(XE(X))(YE(Y))]=E(XYXE(Y)YE(X)+E(X)E(Y))Cov(X,Y) = E[(X - E(X))(Y - E(Y))] = E(XY - XE(Y) - YE(X) + E(X)E(Y)) =E(XY)E(X)E(Y)E(Y)E(X)+E(X)E(Y)=E(XY)E(X)E(Y)= E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y) = E(XY) - E(X)E(Y)

协方差的直观理解

理解:协方差反映了两个随机变量之间的线性相关程度。正值表示正相关,负值表示负相关,零值表示不相关。

协方差的例子

例 1:设 XXYY 的联合分布律为:

X\YX \backslash Y01
00.30.2
10.20.3

Cov(X,Y)Cov(X,Y)

  1. E(X)=0×0.5+1×0.5=0.5E(X) = 0 \times 0.5 + 1 \times 0.5 = 0.5
  2. E(Y)=0×0.5+1×0.5=0.5E(Y) = 0 \times 0.5 + 1 \times 0.5 = 0.5
  3. E(XY)=0×0×0.3+0×1×0.2+1×0×0.2+1×1×0.3=0.3E(XY) = 0 \times 0 \times 0.3 + 0 \times 1 \times 0.2 + 1 \times 0 \times 0.2 + 1 \times 1 \times 0.3 = 0.3
  4. Cov(X,Y)=E(XY)E(X)E(Y)=0.30.5×0.5=0.05Cov(X,Y) = E(XY) - E(X)E(Y) = 0.3 - 0.5 \times 0.5 = 0.05

协方差的性质

对称性

性质 1Cov(X,Y)=Cov(Y,X)Cov(X,Y) = Cov(Y,X)

证明Cov(X,Y)=E[(XE(X))(YE(Y))]=E[(YE(Y))(XE(X))]=Cov(Y,X)Cov(X,Y) = E[(X - E(X))(Y - E(Y))] = E[(Y - E(Y))(X - E(X))] = Cov(Y,X)

线性性

性质 2Cov(aX+b,cY+d)=acCov(X,Y)Cov(aX + b, cY + d) = ac \cdot Cov(X,Y),其中 a,b,c,da, b, c, d 是常数。

证明Cov(aX+b,cY+d)=E[(aX+bE(aX+b))(cY+dE(cY+d))]Cov(aX + b, cY + d) = E[(aX + b - E(aX + b))(cY + d - E(cY + d))] =E[(aXaE(X))(cYcE(Y))]=acE[(XE(X))(YE(Y))]=acCov(X,Y)= E[(aX - aE(X))(cY - cE(Y))] = ac \cdot E[(X - E(X))(Y - E(Y))] = ac \cdot Cov(X,Y)

可加性

性质 3Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)

证明Cov(X1+X2,Y)=E[(X1+X2E(X1+X2))(YE(Y))]Cov(X_1 + X_2, Y) = E[(X_1 + X_2 - E(X_1 + X_2))(Y - E(Y))] =E[(X1E(X1)+X2E(X2))(YE(Y))]= E[(X_1 - E(X_1) + X_2 - E(X_2))(Y - E(Y))] =E[(X1E(X1))(YE(Y))]+E[(X2E(X2))(YE(Y))]=Cov(X1,Y)+Cov(X2,Y)= E[(X_1 - E(X_1))(Y - E(Y))] + E[(X_2 - E(X_2))(Y - E(Y))] = Cov(X_1, Y) + Cov(X_2, Y)

与方差的关系

性质 4Cov(X,X)=D(X)Cov(X, X) = D(X)

证明Cov(X,X)=E[(XE(X))2]=D(X)Cov(X, X) = E[(X - E(X))^2] = D(X)

独立随机变量的协方差

性质 5:如果 XXYY 独立,则 Cov(X,Y)=0Cov(X, Y) = 0

证明:如果 XXYY 独立,则 E(XY)=E(X)E(Y)E(XY) = E(X)E(Y),所以 Cov(X,Y)=E(XY)E(X)E(Y)=0Cov(X, Y) = E(XY) - E(X)E(Y) = 0

注意:逆命题不成立,即 Cov(X,Y)=0Cov(X, Y) = 0 不一定意味着 XXYY 独立。

相关系数的定义

相关系数的数学定义

定义:设 XXYY 是两个随机变量,D(X)>0D(X) > 0D(Y)>0D(Y) > 0,则称: ρXY=Cov(X,Y)D(X)D(Y)=Cov(X,Y)σXσY\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}} = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}

XXYY相关系数,其中 σX=D(X)\sigma_X = \sqrt{D(X)}σY=D(Y)\sigma_Y = \sqrt{D(Y)}

相关系数的性质

性质 11ρXY1-1 \leq \rho_{XY} \leq 1

证明:利用柯西-施瓦茨不等式: E[(XE(X))(YE(Y))]E[(XE(X))2]E[(YE(Y))2]|E[(X - E(X))(Y - E(Y))]| \leq \sqrt{E[(X - E(X))^2]E[(Y - E(Y))^2]} 所以 Cov(X,Y)σXσY|Cov(X,Y)| \leq \sigma_X \sigma_Y,即 ρXY1|\rho_{XY}| \leq 1

性质 2ρXY=1\rho_{XY} = 1 当且仅当 Y=aX+bY = aX + b,其中 a>0a > 0

性质 3ρXY=1\rho_{XY} = -1 当且仅当 Y=aX+bY = aX + b,其中 a<0a < 0

性质 4ρXY=0\rho_{XY} = 0 当且仅当 Cov(X,Y)=0Cov(X,Y) = 0

相关系数的直观理解

理解

  • ρXY=1\rho_{XY} = 1:完全正相关
  • ρXY=1\rho_{XY} = -1:完全负相关
  • ρXY=0\rho_{XY} = 0:不相关
  • 0<ρXY<10 < \rho_{XY} < 1:正相关
  • 1<ρXY<0-1 < \rho_{XY} < 0:负相关

相关系数的例子

例 2:继续例 1,求 ρXY\rho_{XY}

  1. D(X)=E(X2)[E(X)]2=0.50.25=0.25D(X) = E(X^2) - [E(X)]^2 = 0.5 - 0.25 = 0.25
  2. D(Y)=E(Y2)[E(Y)]2=0.50.25=0.25D(Y) = E(Y^2) - [E(Y)]^2 = 0.5 - 0.25 = 0.25
  3. σX=σY=0.25=0.5\sigma_X = \sigma_Y = \sqrt{0.25} = 0.5
  4. ρXY=Cov(X,Y)σXσY=0.050.5×0.5=0.2\rho_{XY} = \frac{Cov(X,Y)}{\sigma_X \sigma_Y} = \frac{0.05}{0.5 \times 0.5} = 0.2

协方差矩阵

二维随机变量的协方差矩阵

定义:设 (X,Y)(X, Y) 是二维随机变量,则其协方差矩阵为:

Σ=(D(X)Cov(X,Y)Cov(Y,X)D(Y))=(σX2σXYσYXσY2)\Sigma = \begin{pmatrix} D(X) & Cov(X,Y) \\ Cov(Y,X) & D(Y) \end{pmatrix} = \begin{pmatrix} \sigma_X^2 & \sigma_{XY} \\ \sigma_{YX} & \sigma_Y^2 \end{pmatrix}

协方差矩阵的性质

性质 1:协方差矩阵是对称矩阵

性质 2:协方差矩阵是半正定矩阵

性质 3:如果 XXYY 独立,则协方差矩阵是对角矩阵

多维随机变量的协方差

多维随机变量的协方差矩阵

定义:设 X=(X1,X2,,Xn)TX = (X_1, X_2, \dots, X_n)^Tnn 维随机变量,则其协方差矩阵为:

Σ=(D(X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)D(X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)D(Xn))\Sigma = \begin{pmatrix} D(X_1) & Cov(X_1,X_2) & \dots & Cov(X_1,X_n) \\ Cov(X_2,X_1) & D(X_2) & \dots & Cov(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ Cov(X_n,X_1) & Cov(X_n,X_2) & \dots & D(X_n) \end{pmatrix}

多维随机变量的性质

性质 1:协方差矩阵是对称矩阵

性质 2:协方差矩阵是半正定矩阵

性质 3:如果 X1,X2,,XnX_1, X_2, \dots, X_n 两两独立,则协方差矩阵是对角矩阵

协方差和相关系数的应用

在统计中的应用

应用 1:线性回归 相关系数是衡量线性关系强度的重要指标。

应用 2:主成分分析 协方差矩阵是主成分分析的基础。

应用 3:多元统计分析 协方差矩阵是多元统计分析的核心。

在金融中的应用

应用 4:投资组合理论 协方差矩阵用于计算投资组合的风险。

应用 5:风险管理 相关系数用于评估不同资产之间的风险分散效果。

练习题

练习 1

已知 E(X)=1,E(Y)=2,Cov(X,Y)=3,σX=2,σY=1E(X)=1, E(Y)=2, Cov(X,Y)=3, \sigma_X=2, \sigma_Y=1,求 ρXY\rho_{XY}

参考答案

解题思路: 使用相关系数的定义。

详细步骤

  1. ρXY=Cov(X,Y)σXσY\rho_{XY} = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}
  2. =32×1=1.5= \frac{3}{2 \times 1} = 1.5

答案1.51.5

练习 2

已知随机变量 XXYY 的联合分布律为:

X\YX \backslash Y01
00.40.1
10.10.4

Cov(X,Y)Cov(X,Y)

参考答案

解题思路: 使用协方差的简化计算公式。

详细步骤

  1. E(X)=0×0.5+1×0.5=0.5E(X) = 0 \times 0.5 + 1 \times 0.5 = 0.5
  2. E(Y)=0×0.5+1×0.5=0.5E(Y) = 0 \times 0.5 + 1 \times 0.5 = 0.5
  3. E(XY)=0×0×0.4+0×1×0.1+1×0×0.1+1×1×0.4=0.4E(XY) = 0 \times 0 \times 0.4 + 0 \times 1 \times 0.1 + 1 \times 0 \times 0.1 + 1 \times 1 \times 0.4 = 0.4
  4. Cov(X,Y)=E(XY)E(X)E(Y)=0.40.5×0.5=0.15Cov(X,Y) = E(XY) - E(X)E(Y) = 0.4 - 0.5 \times 0.5 = 0.15

答案0.150.15

练习 3

已知 XXYY 独立,D(X)=4D(X) = 4D(Y)=9D(Y) = 9,求 D(X+Y)D(X + Y)

参考答案

解题思路: 使用独立随机变量方差的可加性。

详细步骤

  1. 如果 XXYY 独立,则 D(X+Y)=D(X)+D(Y)D(X + Y) = D(X) + D(Y)
  2. =4+9=13= 4 + 9 = 13

答案1313

练习 4

已知随机变量 XXYY 的相关系数为 0.80.8D(X)=4D(X) = 4D(Y)=9D(Y) = 9,求 Cov(X,Y)Cov(X,Y)

参考答案

解题思路: 使用相关系数的定义。

详细步骤

  1. ρXY=Cov(X,Y)D(X)D(Y)\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}
  2. 0.8=Cov(X,Y)4×9=Cov(X,Y)60.8 = \frac{Cov(X,Y)}{\sqrt{4 \times 9}} = \frac{Cov(X,Y)}{6}
  3. Cov(X,Y)=0.8×6=4.8Cov(X,Y) = 0.8 \times 6 = 4.8

答案4.84.8

练习 5

证明:如果 XXYY 独立,则 ρXY=0\rho_{XY} = 0

参考答案

解题思路: 利用独立随机变量的协方差为零。

详细步骤

  1. 如果 XXYY 独立,则 Cov(X,Y)=0Cov(X,Y) = 0
  2. 所以 ρXY=Cov(X,Y)D(X)D(Y)=0D(X)D(Y)=0\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}} = \frac{0}{\sqrt{D(X)D(Y)}} = 0

答案:证明完成