数理統計学５　条件付期待値 - 数学、ときどき統計、ところによりＩＴ

今回は条件付期待値とその基本的な性質について説明します。

※本記事は2018/5/17に全面的に加筆修正を行いました。

条件付期待値
条件付期待値とラドン・ニコディム微分
条件付期待値の性質
関数空間に関する補足事項

条件付期待値

偶然性を伴う現象の観測結果（目的変数）について説明する手法として、別の観測結果（説明変数）との関連性に着目する回帰分析があります。この回帰分析を測度論的確率論の枠組みを用いて正確に記述することから議論を始めます。

例１　 $(\Omega,\mathcal{F},P)$ を確率空間、 $X$ , $T$ を $\mathcal{F}$ -可測で分散を持つ、つまり $X$ , $T\in L^{2}(\Omega,\mathcal{F},P)$ とする。 $X$ を $T$ の関数 $f(T)$ によって説明しようとするとき、 $X$ を $T$ に回帰させると言い $f(T)$ を回帰関数または予測量と呼ぶ。 $f$ を $\mathcal{B}_{\mathbf{R}^{1}}$ -可測とすると、 $f(T)$ は $T^{-1}(\mathcal{B}_{\mathbf{R}^{1}})$ -可測となる。予測量 $f(T)$ として予測誤差 $E_{P}[|X-f(T)|^{2}]$ を最小にするものを最良予測量と呼ぶ。命題９および定理10より、予測量 $f(T)$ として $X$ の $L^{2}(\Omega,T^{-1}(\mathcal{B}_{\mathbf{R}^{1}}),P)$ 上への正射影（これを $E_{P}[X|T^{-1}(\mathcal{B}_{\mathbf{R}^{1}})]$ と表す）を選べば、これが最良予測量になっている。

ここで例１における $T^{-1}(\mathcal{B}_{\mathbf{R}^{1}})$ を $\mathcal{F}$ の部分 $\sigma$ -加法族 $\mathcal{G}$ に置き換えて、回帰分析の考え方を一般化してみます。つまり任意の $X\in L^{2}(\Omega,\mathcal{F},P)$ に対して $L^{2}(\Omega,\mathcal{G},P)$ への正射影 $E_{P}[X|\mathcal{G}]$ が唯一つ存在し、次の式を満たすことが分かります：\begin{equation}\left(X,Z\right)_{L^{2}}=\left(E_{P}[X|\mathcal{G}],Z\right)_{L^{2}},\quad Z\in L^{2}(\Omega,\mathcal{G},P)\label{orthogonal_projection_L2_ver1}\end{equation}式 \eqref{orthogonal_projection_L2_ver1} は期待値の記号を使って次の様に書くことも出来ます：\begin{equation}E_{P}[XZ]=E_{P}[E_{P}[X|\mathcal{G}]Z],\quad Z\in L^{2}(\Omega,\mathcal{G},P)\label{orthogonal_projection_L2_ver2}\end{equation}これを $X\in L^{1}(\Omega,\mathcal{F},P)$ の場合に拡張したものが次の定理（および定義）になります。

定理２（条件付期待値の存在と一意性）　 $(\Omega,\mathcal{F},P)$ を確率空間、 $\mathcal{G}$ を $\mathcal{F}$ の部分 $\sigma$ -加法族とする。任意の $X \in L^{1}(\Omega,\mathcal{F},P)$ に対して次の式を満たす $E_{P}[X|\mathcal{G}] \in L^{1}(\Omega,\mathcal{G},P)$ が唯一つ存在する：

$E_{P}[ XZ] =E_{P}[ E_{P}[ X|\mathcal{G}] Z] ,\quad Z\in L^{\infty}(\Omega,\mathcal{G},P).$

このとき $E_{P}[X|\mathcal{G}]$ を $X$ の $\mathcal{G}$ に関する条件付期待値と呼ぶ。

併せて条件付確率*1も定義しておきます。

定義３（条件付確率）　 $(\Omega,\mathcal{F},P)$ を確率空間、 $\mathcal{G}$ を $\mathcal{F}$ の部分 $\sigma$ -加法族とする。 $E_{P}[1_{A}|\mathcal{G}]$ を $A\in\mathcal{F}$ に関する条件付確率と呼び $P(A|\mathcal{G})$ と表す。

例４　 $A\in\mathcal{G}$ に対して $P(A|\mathcal{G})=1_{A}$ ( $P\text{-}a.e.$ ) が成り立つ。実際、 $X:=1_{A}$ は、

$E_{P}[ 1_{A}Z] =E_{P}[ XZ] =E_{P}[ E_{P}[ X|\mathcal{G}] Z],\quad Z\in L^{\infty}(\Omega,\mathcal{G},P)$

を満たす $\mathcal{G}$ -可測関数であるから条件付期待値の一意性より従う。

例５　 $B\in\mathcal{F}$ が $0\lt P(B)\lt 1$ を満たすとし $\mathcal{G}=\{\emptyset,B,B^{c},\Omega\}$ とする。このとき $A\in\mathcal{F}$ に対して

$\displaystyle P(A|\mathcal{G})=\frac{P(A\cap B)}{P(B)}\,1_{B}+\frac{P(A\cap B^{c})}{P(B^{c})}\,1_{B^{c}},\quad P\text{-}a.e.$

条件付期待値とラドン・ニコディム微分

前節では回帰分析の考え方を一般化して条件付期待値を定義しましたが、条件付期待値は

$\mu_{X}(B):=E_{P}[ X1_{B}] ,\quad B\in\mathcal{F}$

で定義される $(\Omega,\mathcal{F},P)$ 上の測度を用いて、 $\mu_{X}|_{\mathcal{G}}$ の $P_{X}|_{\mathcal{G}}$ に関する密度比（ラドン・ニコディム微分）によって書き表すことが出来ます。

実際、 $\mu_{X}|_{\mathcal{G}}\ll P|_{\mathcal{G}}$ が成り立つのでラドン・ニコディムの定理により

$\displaystyle \mu_{X}(B)=\int_{B}\frac{d\mu_{X}|_{\mathcal{G}}}{dP|_{\mathcal{G}}}(\omega)P|_{\mathcal{G}}(d\omega)=E_{P}\left[ \frac{d\mu_{X}|_{\mathcal{G}}}{dP|_{\mathcal{G}}}\,1_{B}\right],\quad B\in\mathcal{G}$

を満たす $\mathcal{G}$ -可測関数 $d\mu_{X}|_{\mathcal{G}}/dP|_{\mathcal{G}}$ が唯一つ存在します。

条件付期待値およびラドン・ニコディム微分の一意性から

$\displaystyle E_{P}[ X|\mathcal{G}] =\frac{d\mu_{X}|_{\mathcal{G}}}{dP|_{\mathcal{G}}},\quad P\textrm{-}a.e.$

が成り立ちます。特に $X=1_{A}$ ( $A\in\mathcal{F}$ ) とすれば条件付確率に関する関係式

$\displaystyle P(A|\mathcal{G})=\frac{d\mu_{1_{A}}|_{\mathcal{G}}}{dP|_{\mathcal{G}}}=\frac{dP(A\cap\cdot)|_{\mathcal{G}}}{dP|_{\mathcal{G}}},\quad P\textrm{-}a.e.$

が得られます。ただし最後の式中の $P(A\cap\cdot)$ は次式で定義される $(\Omega,\mathcal{F})$ 上の測度を表します：\begin{equation*}P(A\cap\cdot)(B):=P(A\cap B),\quad B\in\mathcal{F}.\end{equation*}

条件付期待値の性質

条件付期待値は以下の性質を満たします。

定理６　 $(\Omega,\mathcal{F},P)$ を確率空間、 $\mathcal{G}$ , $\mathcal{G}_{1}$ , $\mathcal{G}_{2}$ を $\mathcal{F}$ の部分 $\sigma$ -加法族、 $X\in L^{1}(\Omega,\mathcal{F},P)$ とする。このとき条件付期待値 $E_{P}[X|\mathcal{G}]$ は次の性質を持つ。だたし等号や不等号は $P\text{-}a.e.$ の意味である。

$E_{P}[\, \cdot\,|\mathcal{G}]$ は $L^{1}(\Omega,\mathcal{F},P)$ から $L^{1}(\Omega,\mathcal{G},P)$ への線型作用素である。
$E_{P}[E_{P}[X|\mathcal{G}] |\mathcal{G}]=E_{P}[X|\mathcal{G}]$ 、つまり射影の性質を満たす。
$X\ge0$ に対して $E_{P}[X|\mathcal{G}] \ge 0$ が成り立つ。
$\mathcal{G}_{1}\subset\mathcal{G}_{2}$ ならば、 $E_{P}[E_{P}[X|\mathcal{G}_{2}]|\mathcal{G}_{1}]=E_{P}[X|\mathcal{G}_{1}]$ が成り立つ。
$Y$ が $\mathcal{G}$ -可測で $XY\in L^{1}(\Omega,\mathcal{F},P)$ ならば、 $E_{P}[XY|\mathcal{G}]=YE_{P}[X|\mathcal{G}]$ が成り立つ。

関数空間に関する補足事項

条件付期待値に関する議論の中で、関数空間に関するいくつかの事実を用いるので、それに関する補足をしておきます。

定義７　 $(\Omega,\mathcal{F},P)$ を確率空間、 $1\le p\lt \infty$ とする。確率変数の内、 $p$ 乗可積分なもの全体の成す空間を $L^{p}(\Omega,\mathcal{F},P)$ と表し $L^{p}$ 空間と呼ぶ *2： \[L^{p}(\Omega,\mathcal{F},P):=\left\{ X:\Omega\to\mathbf{R}\ \Big|X:\mathcal{F}\text{-可測},\ E_{P}(|X|^{p})<\infty\right\} \]

定理８　 $L^{p}$ 空間について以下が成り立つ：

$L^{p}(\Omega,\mathcal{F},P)$ は線型空間である。つまり $L^{p}(\Omega,\mathcal{F},P)$ は和とスカラー倍で閉じている。
$X,Y\in L^{2}(\Omega,\mathcal{F},P)$ に対し $(X,Y)_{L^{2}}:=E_{P}[XY$ ] と定義すると $(\ ,\ )_{L^{2}}$ は $L^{2}(\Omega,\mathcal{F},P)$ 上の内積になる。
$L^{p}$ 空間は、 $L^{p}$ -ノルム $\|X\|_{L^{p}}:=E_{P}[|X|^{p}{}^{1/p}$ ] に関して完備*3となる。

証明　省略（関数解析学の教科書を参照）

完備な距離線型空間はバナッハ空間、完備な内積線型空間はヒルベルト空間と言います。定理１は $L^{p}$ 空間がバナッハ空間になっていること、特に $L^{2}$ 空間はヒルベルト空間になっていることを述べています。統計学の言葉を使えば、 $L^{1}$ 空間は期待値が存在する確率変数全体を表し、また $L^{2}$ 空間*4は分散が存在する確率変数全体を表しています。

命題９　 $(\Omega,\mathcal{F},P)$ を確率空間とする。 $\mathcal{F}$ の部分 $\sigma$ -加法族 $\mathcal{G}$ に対し、 $L^{p}(\Omega,\mathcal{G},P)$ は $L^{p}(\Omega,\mathcal{F},P)$ の閉部分空間である。

証明　 $L^{p}(\Omega,\mathcal{G},P)$ が $L^{p}(\Omega,\mathcal{F},P)$ の線型部分空間なのは明らか。また $L^{p}(\Omega,\mathcal{G},P)$ の完備性から $L^{p}(\Omega,\mathcal{G},P)$ が $L^{p}(\Omega,\mathcal{F},P)$ の閉部分集合になっていることも容易に示せる。（証明終）

ヒルベルト空間では次の定理が成り立ちます。

定理10（正射影定理*5）　 $H$ をヒルベルト空間とし、 $(\ ,\ )_{H}$ を $H$ の内積とする。 $K$ を $H$ の閉部分空間とするとき、任意の $\psi\in H$ は $\psi=\psi_{K}+\psi_{K^{\perp}}$ ( $\psi_{K}\in K$ , $\psi_{K^{\perp}}\in K^{\perp}$ *6 ) と一意に分解できる。 $\psi_{K}$ を $\psi$ の $K$ 上への正射影と呼ぶ。