凸函数与期望值：简明证明与分析

什么是凸函数？

凸函数是指拥有如下性质的函数：对于任意满足 0 ≤ α ≤ 1 的 α 以及任意 x0 < x1，都有：

g(αx0 + (1 − α)x1) ≤ αg(x0) + (1 − α)g(x1)

形象地说，如果在函数图像上连接任意两点，则连接线段始终位于函数曲线的上方或与其重合。

凸函数与期望值

利用凸函数的性质，我们可以证明一个重要的结论：对于任意随机变量 X，恒有：

g(E[X]) ≤ E[g(X)]

证明

1. 离散随机变量

假设 X 是一个离散随机变量。我们可以选择 pi 使得 pi = P(X = xi)。在这种情况下，

E[X] = Σ (i=0 to n) pixiE[g(X)] = Σ (i=0 to n) pig(xi)

根据凸函数的定义，对于任意的离散分布 ~p = [p0; p1; p2; ... ; pn] （即 0 ≤ pi ≤ 1 且 Σ (i=0 to n) pi = 1），一个凸函数 g(x) 将满足以下不等式：

g(Σ (i=0 to n) pixi) ≤ Σ (i=0 to n) pig(xi)

因此，对于离散随机变量来说：

g(E[X]) ≤ E[g(X)]

2. 连续随机变量

假设 X 是一个连续随机变量。在这种情况下，令 xi 为一组由 Δx 均匀间隔的点，并且 pi = P( |X - xi| < Δx/2 )。当 Δx 趋近于 0 时，pi 趋近于 fX(xi)Δx。其中 fX(x) 为随机变量 X 的概率密度函数。因此，

lim (Δx→0) g(Σ (i=0 to n) fX(xi)xiΔx) ≤ lim (Δx→0) Σ (i=0 to n) fX(xi)g(xi)Δx

进一步化简可得：

g( ∫ xfX(x)dx ) ≤ ∫ g(x)fX(x)dx

即：

g(E[X]) ≤ E[g(X)]

结论

综上所述，对于任意随机变量 X，我们都证明了 g(E[X]) ≤ E[g(X)]。这个不等式被称为詹森不等式，它在数学、统计学以及机器学习等领域都有着广泛的应用。