条件期望(英文名:Conditional expectation),又称条件数学期望。
在概率论中,条件期望是一个
实数随机变量的相对于一个条件概率分布的
期望值。换句话说,这是给定的一个或多个其他变量的值一个变量的期望值。它也被称为条件期望值。讨论两个随机变量X与Y的场合,假定它们具有密度函数f(x,y) ,并以g(y|x) 记已知X=x的条件下Y的条件密度函数,以h(x) 记X的边缘密度函数。定义在X=x的条件下, Y的条件期望定义为:E(Y|X=x)=∫y*g(y|x)dy。在概率论发展的初期就已引进并应用了简单情形下的条件概率,一般情形下的条件概率与条件期望的严格定义则是1933年由Α.Η.
安德雷·柯尔莫哥洛夫给出的,这才使概率统计的一些重要内容建立在严密的基础上,例如
数理统计学中的充分统计量(见统计量)、
托马斯·贝叶斯统计都用到这一概念。
函数
条件分布函数与条件期望
在前一章中,对 离散型
随机变量,我们曾经研究了在已知 发生的条件下 的分布问题,并称 P( = x| = y)为条件分布开,类似的问题对 连续型随机变量也存在。
因为 连续型随机变量取单 点值的概率为零,所以用 分布函数 P( x)= P( x)来代替离散型时的分布列 P( = a),在这里也同样以 P(
“不定式”
如果已知 的联合分布函数 F( x, y)或它的密度函数 p( x, y),如何来条件分布函数 F( x| y)。由 条件概率的定义读者会想到应该有
P( x| y)= P(
但是,因为对 连续型
随机变量来说, P( 不定式”,这并没有解决问题。
在
数学分析中已知 也是 的不定式,为解决这个矛盾,先考虑有限增量时的比值,然后再令,并定义
=
由此得到启发,我们采取同样的思想途径定义
P( x| y)= P(
=
= ( 3.86)
因为 是 连续型随机变量,若其密度函数为 p( x, y),则上式可以写成
P( x| y)= P(
=
= ( 3.87)
P( x| y)=
= ( 3.88)
显然,这时 P( x| y)关于 x的
导数存在,且有
P( x| y)= F( x| y) = ( 3.89)
我们称 P( x| y)为在已知发生的条件下 的条件概率密度。完全类似地可以定义 F( x| y)及 P( y| x),读者还可以比较一下条件概率密度与
离散型时的条件分布列:
P( x| y)=
它们之间是多么的相似 !
例6.18(略)
正文
随机变量按条件概率(见概率)的平均。研究随机事件之间的关系时,在已知某些事件发生的条件下来考虑另一些事件的统计规律是十分重要的。马尔可夫过程和鞅论的整个内容更是离不开对条件概率和条件期望的研究。因而它已成为近代概率论与
数理统计学中重要的基本概念。
简单情形如果仅以单个事件的发生作为“条件”,这种情形称为简单情形。在已知正概率事件(即概率不为0的事件)
B
发生的条件下,定义随机变量
关于事件
B
的条件分布函数为
(
│
B
)=
({
≤
}│
B
),由条件概率定义知其等于
({
≤
}∩
B
)/
(
B
)。这时,相应于这一条件分布函数的数学期望为
称为
关于事件
B
的条件期望。
初等情形将简单情形加以推广,即把“已知”理解为通过观测或安排试验所能确切了解到的全部信息。例如,若事件
B
“已知”,它的对立事件
也“已知”;若事件
B
,
B
,…都已知,则事件
和
也都已知。在这样的意义下,“已知”的随机事件全体构成一个
域
。如果
是由有限个互不相容的事件{
B
,
B
,…,
B
}生成的,这种情形称为初等情形。这时自然把事件
关于
的条件概率
(
|
)看成是一族简单情形的条件概率,它按照哪一个
B
发生而取值
(
|
B
关于
的条件期望E(
|
)也是一族简单情形的条件期望,它按照哪一个
B
发生而取值E(
|
B
),即当
落入
B
时,E(
|
)(
)=E(
|
B
),
=1,2,…,
。由此可知,E(
|
)是
的函数,而且是
可测的随机变量,即是概率空间(
,
,
)上的随机变量。如果每个
B
都具有正概率,上述的定义是完整的;若某些
B
的概率为0,则从整体上E(
|
)没有明确意义的部分只是一个零概率事件。
密度存在的情形许多实际问题需要考虑比初等情形更复杂的
。例如为了预报明天是否下雨这个随机事件,可以测量空气的相对湿度,而湿度本身可以看作一个连续型的
随机变量。这时“已知”的
域
就是
所生成的
域
(
),且常简记E(
│
(
))=E(
│
)。若随机变量
、
有联合密度函数
(
,
),则
关于事件{
=
}的条件密度为
,而
关于{
=
}的条件期望就是
这时E(
│
)是
(
)可测的随机变量,当
满足
(
)=
时,
。
一般情形根据以上的想法,把“已知”条件理解为给定了概率空间(
,F,
)中F的一个子
域
关于
的条件期望E(
|
)是这样的
可测的随机变量,它在每一个“已知”的随机事件
∈
上的平均同原随机变量
在
存在的场合,这样的随机变量E(
|
)一定存在,虽不惟一,但彼此之间只在一个零概率事件上有差异。对于初等情形和密度存在的情形,前述的特殊定义方法与这里的一般定义是一致的。若
是仅由═与
组成的最简单的子
域,则E(
|
)就以概率1等于E
。
条件期望具有类似于数学期望的性质。如设
,
+
|
)=E(
|
)+E(
|
);E(
|
)=
;E(
|
)=
E(
│
);
≥0蕴含E(
|
)≥0;又若Z为
可测随机变量,且 E(
)存在,则以概率1成立E(
|
)=ZE(
|
)。此外还有E(E(
|
))=E
;又若
可测随机变量Z有
E(
),换言之,E(
|
)是所有
可测随机变量中最“接近”
的。
条件概率与正则条件概率任何事件
的示性函数
(即
(
)=1或0,视
∈
或
|
)称为
关于
的条件概率,记作
(
|
)。条件概率具有类似于通常概率的性质:如0≤
(
|
)≤1,
(
|
)=1,对两两不相容的事件列
。但所有这些关系都只能以概率1成立,而不一定处处成立。因此对于固定的
,{
(
|
)(
):
∈F}不一定是F上的概率测度。如能通过调整随机变量
(
|
)在零概率事件上的值,使{
(
|
):
∈F}对每一
都是F上的概率测度,则把
(
|
)(
)记成
,称为关于
的正则条件概率。这时条件期望可表成对正则条件概率的积分
。对于性质比较好的概率空间,例如
是
维实空间
,F是波莱尔域,则关于任意的子
域
,正则条件概率总存在。
条件独立性相应于条件概率的独立性称为条件独立性。设F
,F
是F的子
域,F
和F
关于
条件独立,是指任给
∈F
,
∈F
,以概率1成立
这个关系式等价于:任给
∈F
,以概率1成立
这正是马尔可夫过程在已知现在(
)的条件下,过去(F
)和将来 (F
)条件独立的一种严格的数学表述。又如果
是仅由═与
组成的子
域,则关于
的条件独立性就是通常意义下的独立性(见
随机变量)。
作用
条件 数学期望在近代概率论中有着基本重要的作用,在实际问题中也有很大用处。在两个互有影响的 随机变量、中,如果已知其中一个随机变量的取值 =y,要据此去估计或预测另一个随机变量的取值,这样的问题在实际应用中经常会碰到。人们称它为“预测问题”。由上述讨论可知,条件 数学期望 E( )是在已知( = y)发生的条件下,对 的一个颇为“合理”的预测。
例6.18(略)
一般认为,人的身高和脚印长可当作一个二维正态分布变量来处理。下面我们给出脚印长的估计式:
E( )=
如果 把画在平面的 直角
坐标系中,它是一条直线,这条直线在一定程度上描写了身高 依赖于 的关系,常常称为是 回归直线。在一般情形下,由
E( ,y) ( 3.94)
或
{x, E( )} ( 3.94)
可以得到平面上的两条曲线,它们称为是 回归曲线或简称为 回归,
前面曾经指出,把 E( )作为在已知( = y)发生的条件下,对 的估计或预测,在直觉上是“合理”的,究竟它合理在什么地方?这个估计或预测具有那些“优良”的性质值得引起人们的注意呢?这是下面要进一步研究的问题。
性质
我们已经知道 E( )是 的函数,现不妨假定有别的 的函数g( )可以作为对 的估计或预测,我们当然要求这种估计或预测的 误差|要尽可能地小,但| |是
随机变量,一般就要求它的平均值
E[ ]=min
但是绝对运算在 数学上处理并不方便,回忆在
数学分析中提到过的最小的二乘方法以及第二章中关于
方差的讨论,读者能够想到,可以要求
E[ ] =min
如果 的密度函数为 p( x, y),就有
E[ ] =
=
由 方差的性质( 3.74),当g(y)= E( )时,能使
达到最小,从而当g(y)= E( )时也使 E[ ] 到最小。所以,在已知( = y)发生的条件下,用 E( )作为对 的估计或预测是最佳的,这时均方差 E{[ ] | = y}达到最小,这里证明的是连续型的情形,对
离散型也可以类似地证明这个结论。
二类回归
我们已经知道用 E( )作为对 进行估计或预测具有很有的性质。在 的任意函数中,它的平均
方差为最小,但是在某些场合,譬如密度函数 p( x, y)为未知,或者 E( )过分复杂等原因,这时可以降低一些要求寻找另外的估计,这当中一个常用的估计是,只要求所得到的估计在 的 线性函数类 L( )= a +b中能使均方差达到最小,也就是要确定 a与 b
常数,使
= E[ ] =min
为此,只要令
上述方程组等价于
( 3.95)
解此方程组可以求得
( 3.96)
通常称上式为 线性回归或 第二类回归,并称(3.94)或给出的一般情况的回归为 第一类回归。第二娄回归的性质比第一类回归要差一些,但是在求第二类回归时,不必知道联合密度 函数而只要求知道、的期望、
方差与
协方差就够了,而且第二类回归得到的总是一个 线性函数,因而第二类回归有便于应用的优点。
剩余方差
还有一点应该指出的是,对于用得最广泛的 正态分布来说,可以从例3.27知道,两类回归恰好是一致的。这一事实表明,就 正态分布而言,最佳线性估计就是最佳估计。当然,这里“最佳”的意思是指均方差最小
由(3.96)式还可得到最佳线性估计的 均方误差为
E[ ] = E[ ]
=
这个均方 误差常常称为剩余
方差。由上式可知,当 与 间的 相关系数| |= 1时,剩余 方差为零。这时,可以用(3.96)式来准确估计,也就是说 与 之间存在着 线性关系。于是我们又一次证明了 相关系数是
随机变量间 线性相依程度的反映。