凸函数与期望值:简明证明与分析
凸函数与期望值:简明证明与分析
什么是凸函数?
凸函数是指拥有如下性质的函数:对于任意满足 0 ≤ α ≤ 1 的 α 以及任意 x0 < x1,都有:
g(αx0 + (1 − α)x1) ≤ αg(x0) + (1 − α)g(x1)
形象地说,如果在函数图像上连接任意两点,则连接线段始终位于函数曲线的上方或与其重合。
凸函数与期望值
利用凸函数的性质,我们可以证明一个重要的结论:对于任意随机变量 X,恒有:
g(E[X]) ≤ E[g(X)]
证明
1. 离散随机变量
假设 X 是一个离散随机变量。我们可以选择 pi 使得 pi = P(X = xi)。在这种情况下,
E[X] = Σ (i=0 to n) pixiE[g(X)] = Σ (i=0 to n) pig(xi)
根据凸函数的定义,对于任意的离散分布 ~p = [p0; p1; p2; ... ; pn] (即 0 ≤ pi ≤ 1 且 Σ (i=0 to n) pi = 1),一个凸函数 g(x) 将满足以下不等式:
g(Σ (i=0 to n) pixi) ≤ Σ (i=0 to n) pig(xi)
因此,对于离散随机变量来说:
g(E[X]) ≤ E[g(X)]
2. 连续随机变量
假设 X 是一个连续随机变量。在这种情况下,令 xi 为一组由 Δx 均匀间隔的点,并且 pi = P( |X - xi| < Δx/2 )。当 Δx 趋近于 0 时,pi 趋近于 fX(xi)Δx。其中 fX(x) 为随机变量 X 的概率密度函数。因此,
lim (Δx→0) g(Σ (i=0 to n) fX(xi)xiΔx) ≤ lim (Δx→0) Σ (i=0 to n) fX(xi)g(xi)Δx
进一步化简可得:
g( ∫ xfX(x)dx ) ≤ ∫ g(x)fX(x)dx
即:
g(E[X]) ≤ E[g(X)]
结论
综上所述,对于任意随机变量 X,我们都证明了 g(E[X]) ≤ E[g(X)]。这个不等式被称为詹森不等式,它在数学、统计学以及机器学习等领域都有着广泛的应用。
原文地址: https://www.cveoy.top/t/topic/bDlx 著作权归作者所有。请勿转载和采集!