数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

数理統計学 5 条件付期待値

今回は条件付期待値とその基本的な性質について説明します。

※本記事は2018/5/17に全面的に加筆修正を行いました。

 

条件付期待値

偶然性を伴う現象に関する観測結果について、なぜその様な観測結果が得られたのかを説明する場面でしばしば回帰分析という手法が用いられます。この回帰分析を測度論的確率論の枠組みを用いて正確に記述することから議論を始めます。

例1  (\Omega,\mathcal{F},P) を確率空間、 X , T\mathcal{F}-可測で分散を持つ確率変数、つまり X, T\in L^{2}(\Omega,\mathcal{F},P) とする。XT の関数 f(T) によって説明しようとするとき、 XT に回帰させると言い f(T) を回帰関数または予測量と呼ぶ。f\mathcal{B}_{\mathbf{R}^{1}}-可測とすると、 f(T)T^{-1}(\mathcal{B}_{\mathbf{R}^{1}})-可測となる。予測量 f(T) として予測誤差 E_{P}[|X-f(T)|^{2}] を最小にするものを最良予測量と呼ぶ。命題10および定理11より、予測量 f(T) として XL^{2}(\Omega,T^{-1}(\mathcal{B}_{\mathbf{R}^{1}}),P) 上への正射影(これを E_{P}[X|T^{-1}(\mathcal{B}_{\mathbf{R}^{1}})] と表す)を選べば、これが最良予測量になっている。

 

ここで例1における T^{-1}(\mathcal{B}_{\mathbf{R}^{1}})\mathcal{F} の部分 \sigma-加法族 \mathcal{G} に置き換えて、回帰分析の考え方を一般化してみます。 つまり任意の X\in L^{2}(\Omega,\mathcal{F},P) に対して L^{2}(\Omega,\mathcal{G},P) への正射影 E_{P}[X|\mathcal{G}] が唯一つ存在し、次の式を満たすことが分かります:\begin{equation}\left(X,Z\right)_{L^{2}}=\left(E_{P}[X|\mathcal{G}],Z\right)_{L^{2}},\quad Z\in L^{2}(\Omega,\mathcal{G},P)\label{orthogonal_projection_L2_ver1}\end{equation}式 \eqref{orthogonal_projection_L2_ver1} は期待値の記号を使って次の様に書くことも出来ます:\begin{equation}E_{P}[XZ]=E_{P}[E_{P}[X|\mathcal{G}]Z],\quad Z\in L^{2}(\Omega,\mathcal{G},P)\label{orthogonal_projection_L2_ver2}\end{equation}これを X\in L^{1}(\Omega,\mathcal{F},P) の場合に拡張したものが次の定理(および定義)になります。

定理2(条件付期待値の存在と一意性) (\Omega,\mathcal{F},P) を確率空間、 \mathcal{G}\mathcal{F} の部分 \sigma-加法族とする。任意の X \in  L^{1}(\Omega,\mathcal{F},P) に対して次の式を満たす E_{P}[X|\mathcal{G}] \in L^{1}(\Omega,\mathcal{G},P) が唯一つ存在する:\[E_{P}[XZ]=E_{P}[E_{P}[X|\mathcal{G}]Z],\quad Z\in L^{\infty}(\Omega,\mathcal{G},P)\]このとき E_{P}[X|\mathcal{G}] X\mathcal{G} に関する条件付期待値と呼ぶ。

 

併せて条件付確率*1も定義しておきます。

定義3(条件付確率)  (\Omega,\mathcal{F},P) を確率空間、 \mathcal{G}\mathcal{F} の部分 \sigma-加法族とする。 E_{P}[1_{A}|\mathcal{G}] A\in\mathcal{F} に関する条件付確率と呼び P(A|\mathcal{G}) と表す。

 

例4 A\in\mathcal{G} に対して P(A|\mathcal{G})=1_{A} (P\text{-}a.e.) が成り立つ。実際、 X:=1_{A} は、\[E_{P}[1_{A}Z]=E_{P}[XZ]=E_{P}[E_{P}[X|\mathcal{G}]Z],\quad Z\in L^{\infty}(\Omega,\mathcal{G},P)\]を満たす \mathcal{G}-可測関数であるから条件付期待値の一意性より従う。

 

例5 B\in\mathcal{F} が \(0<P(B)<1\) を満たすとし \mathcal{G}=\{\emptyset,B,B^{c},\Omega\} とする。このとき A\in\mathcal{F} に対して\[P(A|\mathcal{G})=\frac{P(A\cap B)}{P(B)}\,1_{B}+\frac{P(A\cap B^{c})}{P(B^{c})}\,1_{B^{c}},\quad P\text{-}a.e.\]

 

条件付期待値とラドン・ニコディム微分

前節では回帰分析の考え方を一般化して条件付期待値を定義しましたが、条件付期待値は \[\mu_{X}(B):=E_{P}[X1_{B}],\quad B\in\mathcal{F}\]で定義される (\Omega,\mathcal{F},P) 上の測度を用いて、 \mu_{X}|_{\mathcal{G}}P_{X}|_{\mathcal{G}} に関する尤度比(ラドン・ニコディム微分)によって書き表すことが出来ます。

実際、 \mu_{X}|_{\mathcal{G}}\ll P|_{\mathcal{G}} が成り立つのでラドン・ニコディムの定理により\[\mu_{X}(B)=\int_{B}\frac{d\mu_{X}|_{\mathcal{G}}}{dP|_{\mathcal{G}}}(\omega)P|_{\mathcal{G}}(d\omega)=E_{P}\left[\frac{d\mu_{X}|_{\mathcal{G}}}{dP|_{\mathcal{G}}}\,1_{B}\right],\quad B\in\mathcal{G}\]を満たす \mathcal{G}-可測関数 d\mu_{X}|_{\mathcal{G}}/dP|_{\mathcal{G}} が唯一つ存在します。

条件付期待値およびラドン・ニコディム微分の一意性から\[E_{P}[X|\mathcal{G}]=\frac{d\mu_{X}|_{\mathcal{G}}}{dP|_{\mathcal{G}}},\quad P\textrm{-}a.e.\]が成り立ちます。特に X=1_{A} ( A\in\mathcal{F} ) とすれば条件付確率に関する関係式\[P(A|\mathcal{G})=\frac{d\mu_{1_{A}}|_{\mathcal{G}}}{dP|_{\mathcal{G}}}=\frac{dP(A\cap\cdot)|_{\mathcal{G}}}{dP|_{\mathcal{G}}},\quad P\textrm{-}a.e.\]が得られます。ただし最後の式中の P(A\cap\cdot) は次式で定義される (\Omega,\mathcal{F}) 上の測度を表します:\[P(A\cap\cdot)(B):=P(A\cap B),\quad B\in\mathcal{F}.\]

 

条件付期待値の性質

条件付期待値は以下の性質を満たします。

定理6 (\Omega,\mathcal{F},P) を確率空間、 \mathcal{G}\mathcal{G}_{1}\mathcal{G}_{2}\mathcal{F} の部分 \sigma-加法族、 X\in L^{1}(\Omega,\mathcal{F},P) とする。このとき条件付期待値 \(E_{P}[X|\mathcal{G}]\) は次の性質を持つ。だたし等号や不等号は P\text{-}a.e. の意味である。

  1. E_{P}[\, \cdot\,|\mathcal{G}]L^{1}(\Omega,\mathcal{F},P) から L^{1}(\Omega,\mathcal{G},P) への線型作用素である。
  2. \(E_{P}[E_{P}[X|\mathcal{G}] |\mathcal{G}]=E_{P}[X|\mathcal{G}]\) 、つまり射影の性質を満たす。
  3. X\ge0 に対して \(E_{P}[X|\mathcal{G}] \ge 0\) が成り立つ。
  4. \mathcal{G}_{1}\subset\mathcal{G}_{2} ならば、 \(E_{P}[E_{P}[X|\mathcal{G}_{2}]|\mathcal{G}_{1}]=E_{P}[X|\mathcal{G}_{1}]\) が成り立つ。
  5. Y\mathcal{G}-可測で XY\in L^{1}(\Omega,\mathcal{F},P) ならば、 \(E_{P}[XY|\mathcal{G}]=YE_{P}[X|\mathcal{G}]\) が成り立つ。

 

命題7 (\Omega,\mathcal{F},P) を確率空間、\mathcal{G}\mathcal{F} の部分 \sigma-加法族、X\in L^{1}(\Omega,\mathcal{F},P) とする。

  1. P\text{-}a.a. \omega\in\Omega に対して P(\cdot\,|\mathcal{G})(\omega)\mathcal{F} 上の確率測度である。
  2. P\text{-}a.a. \omega\in\Omega に対して次が成り立つ:\begin{equation}E_{P}[X|\mathcal{G}](\omega)=\int_{\Omega}X(\omega')P(d\omega'|\mathcal{G})(\omega)\label{eq:integral_representation_of_conditional_expectation}\end{equation}

証明 (1) P\text{-}a.a. \omega\in\Omega に対して P(\emptyset|\mathcal{G})(\omega)=0, P(\Omega|\mathcal{G})(\omega)=1 を満たすことは例4において A=\emptyset, \Omega とすれば得られる。

P(\cdot\,|\mathcal{G}) の正値性は定理6 (3) において X=1_{A} とすれば得られる。

P(\cdot\,|\mathcal{G}) の可算加法性を示す。 A_{i}\in\mathcal{F} , A_{i}\cap A_{j}=\emptyset (i\neq j) とする。 非負で有界\mathcal{G}-可測関数 Z に対して \[ \begin{split} E_{P}\left[P\left(\bigcup_{i=1}^{\infty}A_{i}\bigg|\mathcal{G}\right)Z\right]  &=E_{P}\left[E_{P}\left[1_{\bigcup_{i=1}^{\infty}A_{i}}\Big|\mathcal{G}\right]Z\right] \\ & =E_{P}\left[\left(\sum_{i=1}^{\infty}1_{A_{i}}\right)Z\right] \\ & =\sum_{i=1}^{\infty}E_{P}[1_{A_{i}}Z], \end{split}\] (ただし最後の等号は 1_{A_{i}}Z\ge0 と項別積分定理による)かつ \[ E_{P}\left[\sum_{i=1}^{\infty}P(A_{i}|\mathcal{G})Z\right]=\sum_{i=1}^{\infty}E_{P}[P(A_{i}|\mathcal{G})Z]=\sum_{i=1}^{\infty}E_{P}[1_{A_{i}}Z], \] (ただし最初の等号は P(A_{i}|\mathcal{G})Z\ge0 と項別積分定理による)であるから\[ E_{P}\left[P\left(\bigcup_{i=1}^{\infty}A_{i}\bigg|\mathcal{G}\right)Z\right]=E_{P}\left[\left(\sum_{i=1}^{\infty}P(A_{i}|\mathcal{G})\right)Z\right]. \] よって条件付期待値の定義から加算加法性が直ちに言える。

(2) 単関数 X=\sum_{i=1}^{n}\alpha_{i}1_{A_{i}} ( \alpha_{i} \in \mathbf{R} , A_{i}\in\mathcal{F} , A_{i}\cap A_{j}=\emptyset ( i\neq j ) の場合、条件付期待値の線型性より\[E_{P}[X|\mathcal{G}]=\sum_{i=1}^{n}\alpha_{i}P(A_{i}|\mathcal{G}),\quad P\text{-}a.e.\]

一方、確率測度 P(\cdot\,|\mathcal{G})(\omega) に関する積分を考えれば、 \[\int_{\Omega}X(\omega')P(d\omega'|\mathcal{G})(\omega)=\sum_{i=1}^{n}\alpha_{i}P(A_{i}|\mathcal{G})(\omega). \]

よって \eqref{eq:integral_representation_of_conditional_expectation} が成り立つ。

一般の X\in L^{1}(\Omega,\mathcal{F},P) の場合について示す。X\ge 0 で示せば十分である。X に対して単調非減少な非負単関数列 \{X_{n}\}_{n\in\mathbf{N}}X_{n}\uparrow X となるものが取れる。 Z\in L^{\infty}(\Omega,\mathcal{\mathcal{G}},P) に対して\[ \begin{split} E_{P}[E_{P}[X|\mathcal{G}]Z] & =E_{P}[XZ]=E_{P}\left[\lim_{n\to\infty}X_{n}Z\right] \\ & =\lim_{n\to\infty}E_{P}[X_{n}Z]=\lim_{n\to\infty}E_{P}[E_{P}[X_{n}|\mathcal{G}]Z] \end{split}\]が成り立つ。 \{X_{n}\}_{n\in\mathbf{N}} が単調非減少より \(\{E_{P}[X_{n}|\mathcal{G}]\}_{n\in\mathbf{N}}\) も単調非減少であるから、単調収束定理により \[E_{P}[E_{P}[X|\mathcal{G}]Z]=\lim_{n\to\infty}E_{P}[E_{P}[X_{n}|\mathcal{G}]Z]=E_{P}[\lim_{n\to\infty}E_{P}[X_{n}|\mathcal{G}]Z].\] ここで X_{n} が単関数であることに注意すると、\(E_{P}[X_{n}|\mathcal{G}] \) に対して \eqref{eq:integral_representation_of_conditional_expectation} が成り立つから\[\begin{split}\lim_{n\to\infty}E_{P}[X_{n}|\mathcal{G}](\omega) & =\lim_{n\to\infty}\int_{\Omega}X_{n}(\omega')P(d\omega'|\mathcal{G})(\omega)\\ & =\int_{\Omega}X(\omega')P(d\omega'|\mathcal{G})(\omega). \end{split}\] (最後の等号は測度による積分の定義である)結局、\[ E_{P}[E_{P}[X|\mathcal{G}]Z]=E_{P}\left[\left(\int_{\Omega}XP(d\omega'|\mathcal{G})\right)Z\right]\]となり、条件付期待値の一意性から  \eqref{eq:integral_representation_of_conditional_expectation} を得る。(証明終)

 

関数空間に関する補足事項

条件付期待値に関する議論の中で、関数空間に関するいくつかの事実を用いるので、それに関する補足をしておきます。

定義8 (\Omega,\mathcal{F},P) を確率空間、 \(1\le p<\infty\) とする。確率変数の内、 p 乗可積分なもの全体の成す空間を L^{p}(\Omega,\mathcal{F},P) と表し L^{p} 空間と呼ぶ *2: \[L^{p}(\Omega,\mathcal{F},P):=\left\{ X:\Omega\to\mathbf{R}\ \Big|X:\mathcal{F}\text{-可測},\ E_{P}(|X|^{p})<\infty\right\} \]

 

定理9  L^{p} 空間について以下が成り立つ:

  1. L^{p}(\Omega,\mathcal{F},P)線型空間である。つまり L^{p}(\Omega,\mathcal{F},P) は和とスカラー倍で閉じている。
  2. X,Y\in L^{2}(\Omega,\mathcal{F},P) に対し (X,Y)_{L^{2}}:=E_{P}[XY] と定義すると (\ ,\ )_{L^{2}}L^{2}(\Omega,\mathcal{F},P) 上の内積になる。
  3. L^{p} 空間は、L^{p}-ノルム \|X\|_{L^{p}}:=E_{P}[|X|^{p}{}^{1/p}] に関して完備*3となる。

証明 省略(関数解析学の教科書を参照)

 

完備な距離線型空間はバナッハ空間、完備な内積線型空間ヒルベルト空間と言います。定理1は L^{p} 空間がバナッハ空間になっていること、特に L^{2} 空間はヒルベルト空間になっていることを述べています。統計学の言葉を使えば、 L^{1} 空間は期待値が存在する確率変数全体を表し、また L^{2} 空間*4は分散が存在する確率変数全体を表しています。

 

命題10 (\Omega,\mathcal{F},P) を確率空間とする。 \mathcal{F} の部分 \sigma-加法族 \mathcal{G} に対し、 L^{p}(\Omega,\mathcal{G},P)L^{p}(\Omega,\mathcal{F},P) の閉部分空間である。

証明 L^{p}(\Omega,\mathcal{G},P)L^{p}(\Omega,\mathcal{F},P) の線型部分空間なのは明らか。また L^{p}(\Omega,\mathcal{G},P) の完備性から L^{p}(\Omega,\mathcal{G},P)L^{p}(\Omega,\mathcal{F},P) の閉部分集合になっていることも容易に示せる。(証明終)

 

ヒルベルト空間では次の定理が成り立ちます。

定理11(正射影定理*5 Hヒルベルト空間とし、 (\ ,\ )_{H}H内積とする。 KH の閉部分空間とするとき、任意の \psi\in H\psi=\psi_{K}+\psi_{K^{\perp}} ( \psi_{K}\in K , \psi_{K^{\perp}}\in K^{\perp} *6 ) と一意に分解できる。 \psi_{K}\psiK 上への正射影と呼ぶ。

証明 省略(関数解析学の教科書を参照)

 

次回は十分統計量について説明します。

*1:確率と呼んでいますが値ではなく関数です。

*2:厳密には測度ゼロの集合上の違いを無視したもの(同値類)全体を L^{p} 空間と呼びます。

*3:任意のコーシー列が収束する場合、完備と言います。

*4:P は有限測度なので L^{2} 空間は L^{1} 空間の部分空間になっています。

*5:バナッハ空間の場合、この定理は一般には成り立ちません。

*6: K^{\perp}K の直交補空間と呼ばれ、次で定義されます。\[K^{\perp}:=\left\{ \phi\in H\ |\ (\phi,\psi)_{H}=0,\ \forall\psi\in K\right\} \]