読者です 読者をやめる 読者になる 読者になる

数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

数理統計学 5 条件付期待値

数理統計学 統計学 確率論

今回は条件付期待値について説明をします。

通常、条件付期待値を説明する方法としては、測度論を使わず初等確率論の範囲で行う方法か、測度論を使いラドン・ニコディムの定理を利用する方法のどちらかが採用されていますが、ここではそのどちらとも異なる方法で条件付期待値を説明します。

条件付期待値とは

条件付期待値の概念を理解するために、時間に依存して変化する事象を時刻 T まで観測する、という状況を考えてみましょう。この状況を統計学で取り扱う場合、観測対象を確率空間 (\Omega, \mathcal{F}, P) でモデル化し、時刻 T までの観測行為を \mathcal{F}-可測な確率変数 X で表します。

時刻に依存する現象の場合、最終時刻 T だけでなく途中の時刻 t の状態についても興味の対象となることがよくあります。その場合、時刻 t までの観測行為を表す確率変数 Y およびそれを規定する \sigma-加法族 \mathcal{G} が必要となります。この確率変数 Y が条件付期待値*1と呼ばれるものです。問題設定より \mathcal{G} \subset \mathcal{F} であり、Y は X の持つ情報を \mathcal{G} に制限したものになっていなければなりません。

条件付期待値の概要が分かったところで、早速、条件付期待値を定義したいのですが、現段階では何にどのような操作を行えば目的のものが得られるのかはっきりと見える状態ではありません。そこでそれらを明らかにする為に、いくつかの言葉と記号を導入します。

 

乗可積分関数全体の成す空間

定義1 (\Omega, \mathcal{F}, P) を確率空間、\(1\le p < \infty\) とする。確率変数の内、p 乗可積分なもの全体の成す空間を L^{p}(\Omega, \mathcal{F}, P) と表し L^{p} 空間と呼ぶ:\begin{equation}L^{p}(\Omega, \mathcal{F},P):=\left\{ X:\Omega \to \mathbf{R} \ \Big| X:\mathcal{F}\text{-}可測, \ E_{P}(|X|^{p}) < \infty \notag \right\} \end{equation}

 

定理1 L^{p} 空間について以下が成り立つ:

  1. L^{p}(\Omega, \mathcal{F}, P)線型空間である。つまり L^{p}(\Omega, \mathcal{F},P) は和とスカラー倍で閉じている。
  2. X, Y \in L^{2}(\Omega, \mathcal{F}, P) に対し (X, Y) _{L^2}:= E_{P}[ XY] と定義すると (\ ,\ )_{L^2}L^{2}(\Omega, \mathcal{F}, P) 上の内積になる。
  3. L^{p} 空間は、L^p-ノルム  \| X \|_{L^{p}} := E_{P}[ |X|^p ]^{1/p} に関して完備*2となる。

証明 省略(関数解析学の教科書を参照)

 

完備な距離線形空間バナッハ空間、完備な内積線型空間ヒルベルト空間と言います。定理1は L^{p} 空間がバナッハ空間になっていること、特に L^2 空間はヒルベルト空間になっていることを述べています。

統計学の言葉を使えば、L^1 空間は期待値が存在する確率変数全体を表し、また L^2 空間*3は分散が存在する確率変数全体を表しています。

 

条件付期待値の定義

議論の導入部で、条件付期待値 YX の持つ情報を \mathcal{G} に制限したものになっていなければならないことを述べました。そこで先ずは L^{p}(\Omega,\mathcal{F},P)L^{p}(\Omega,\mathcal{G},P) の関係を見ることにします。

命題2 (\Omega, \mathcal{F},P) を確率空間とする。\mathcal{F} の部分 \sigma-加法族 \mathcal{G} に対し、L^p(\Omega, \mathcal{G}, P)L^p(\Omega, \mathcal{F}, P) の閉部分空間である。

証明 L^p(\Omega, \mathcal{G}, P)L^p(\Omega, \mathcal{F}, P) の線型部分空間なのは明らか。また L^p(\Omega, \mathcal{G}, P) の完備性から L^p(\Omega, \mathcal{G}, P)L^p(\Omega, \mathcal{F}, P) の閉部分集合になっていることも容易に示せる。\square

 

命題2では一般の p について示しましたが、p=1 または p=2 の場合を考えます。さらに命題2で示した事実を有効に活用するため p=2 として議論を進めます。その理由は次の定理にあります。

定理3(正射影定理)*4 Hヒルベルト空間とし、(\ ,\ )_{H}H内積とする。KH の閉部分空間とするとき、任意の \psi \in H\psi = \psi _{K} + \psi _{K^{\perp}}\psi _{K}\in K, \psi _{K^{\perp}}\in K^{\perp}*5)と一意に分解できる。\psi _{K}\psiK 上への正射影と呼ぶ。

証明 省略(関数解析学の教科書を参照)

 

命題2と定理3を併せれば、任意の X\in L^2(\Omega, \mathcal{F}, P) に対して次の式を満たす Y \in L^2(\Omega, \mathcal{G}, P) が唯一つ存在することが分かります:\begin{equation} \left( X, Z \right) _{L^2} = \left( Y, Z\right) _{L^2}, \ \ \forall Z \in L^2(\Omega, \mathcal{G}, P) \label{orthogonal_projection_L2_ver1} \end{equation}

式 \eqref{orthogonal_projection_L2_ver1} は期待値の記号を使って次の様に書くことも出来ます:

\begin{equation} E_P\left[XZ\right] = E_P\left[YZ\right], \ \ \forall Z \in L^2(\Omega, \mathcal{G}, P) \label{orthogonal_projection_L2_ver2} \end{equation}

この YXL^2(\Omega, \mathcal{G}, P) 上への正射影であることから YX の持つ情報を \mathcal{G} に制限したものになっていて、さらに \mathcal{G} に依存しない要素とは直交するという直観的に理解しやすい性質を有しています。従って X\in L^2(\Omega,\mathcal{F}, P) の場合は式 \eqref{orthogonal_projection_L2_ver1} もしくは \eqref{orthogonal_projection_L2_ver2} が条件付期待値を与える定義式として相応しいものであることが分かります。

これを踏まえて X\in L^1(\Omega, \mathcal{F}, P) の場合に条件付期待値を定義する訳ですが、ただし L^1 空間には内積が定義されない(つまり式 \eqref{orthogonal_projection_L2_ver1} では定義できない)為、式 \eqref{orthogonal_projection_L2_ver2} を使って定義することにします。

定理4(条件付期待値の存在) (\Omega, \mathcal{F}, P) を確率空間、\mathcal{G}\mathcal{F} の部分 \sigma-加法族とする。任意の X\in L^1(\Omega, \mathcal{F}, P) に対して次の式を満たす Y \in L^1(\Omega, \mathcal{G}, P) が唯一つ存在する:

\begin{equation} E_P\left[XZ\right] = E_P\left[YZ\right], \ \ \forall  Z:\mathcal{G}\text{-}可測かつ有 界 \notag \end{equation}このとき YX\mathcal{G} による条件付期待値と呼び E_P[ X|\mathcal{G}] と書く。

 

以上により条件付期待値の定義が出来ました。併せて条件付確率*6も定義しておきます。

定義2(条件付確率) (\Omega, \mathcal{F}, P) を確率空間、\mathcal{G}\mathcal{F} の部分 \sigma-加法族とする。集合 A\in \mathcal{F} に対してE_{P}[ \chi _{A} | \mathcal{G}]A に関する条件付確率と呼び P(A|\mathcal{G}) と表す。

 

回帰における最良予測量と条件付期待値

最後に条件付期待値の応用例として回帰について見てみます。

(\Omega, \mathcal{F}, P) を確率空間、X, \ Y \in L^2(\Omega, \mathcal{F}, P) とします。いま YX の関数 f(X) によって説明しようとするとき、YX回帰させると言い f(X)回帰関数または予測量と呼びます。また f(X)\in L^2(\Omega, X^{-1}(\mathcal{B}_{\mathbf{R}^1}), P)*7 を動かすとき、予測誤差 E_P[|Y-f(X)|^2] を最小にする予測量 f^{*}(X) が存在し、これを最良予測量と呼びます。最良予測量は\begin{equation} f^{*}(X)=E_{P}[Y|X]:=E_{P}[Y|X^{-1}(\mathcal{B}_{\mathbf{R}^1})] \notag \end{equation}となります。実際、E_P[ Y|X]YL^2(\Omega, X^{-1}(\mathcal{B}_{\mathbf{R}^1}), P) 上への正射影なので、E_P[ |Y-f(X)|^2]f(X)=E_P[Y|X] のとき最小になります。 

 

次回は十分統計量について説明します。

*1:期待値と呼んでいますが値ではなく関数です。

*2:任意のコーシー列が収束する場合、完備と言います。コーシー列の定義は微分積分の教科書をご確認下さい。

*3:P は有限測度なので L^2 空間は L^1 空間の部分空間になっています。

*4:バナッハ空間の場合、この定理は一般には成り立ちません。

*5:K^{\perp}K の直交補空間と呼ばれ、次で定義されます。\begin{equation} K^{\perp}:=\left\{ \phi \in H \ | \ (\phi, \psi)_{H} =0, \ \forall \psi \in K \right\} \notag \end{equation}

*6:確率と呼んでいますが値ではなく関数です。

*7:\mathcal{B}_{\mathbf{R}^1}\mathbf{R}^1 のボレル集合族を表します。