数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

ベイズ推定

今回はベイズ推定について、統計的決定理論の枠組みを使い定式化していきます。

 はじめに統計的決定問題 (\mathcal{X},\mathcal{B},\mathcal{P},\Theta,\mathcal{D},\mathcal{A},w,\Delta) およびリスク関数\[r(\theta,\delta)=\int_{\mathcal{X}}P_{\theta}(dx)\int_{\mathcal{D}}w(\theta,a)\delta(da,x),\quad\delta\in\Delta,\,P_{\theta}\in\mathcal{P} \]を考えます。

分布 P_{\theta}\in\mathcal{P} を特徴付けるパラメータ \theta\in\Theta について、その出現頻度が確率測度 \pi (これを事前分布と呼びます)で与えられている場合、個々の \theta\in\Theta でリスク関数 r(\theta,\delta) を最小にする決定関数ではなく、平均的に最小にする決定関数を選択したいと考えるのは自然です。

この問題を数学的に取り扱う為に次を仮定します。

仮定1 \Theta 上の \sigma-加法族を \mathcal{C} とし、P_{\theta}(B)\mathcal{C}-可測、損失関数 w(\theta,a)\mathcal{C}\otimes\mathcal{A}-可測とする。ここで \mathcal{C}\otimes\mathcal{A}C\times AC\in\mathcal{C}, A\in\mathcal{A})全体の成す集合族 \mathcal{C}\times\mathcal{A} から生成される最小の \sigma-加法族を表す。

 補題 w\Theta\times\mathcal{D} から \mathbf{R} への \mathcal{C}\times\mathcal{A}-可測関数とすると\[f(x,\theta)=\int_{\mathcal{D}}w(\theta,a)\delta(da,x) \]で定義される f\mathcal{B}\otimes\mathcal{C}-可測関数である。

 補題 f(x,\theta)\mathcal{B}\otimes\mathcal{C}-可測関数とする。このとき \theta に関する関数\[ h(\theta)=\int_{\mathcal{X}}f(x,\theta)P_{\theta}(dx)\]は \mathcal{C}-可測である。

 

上記の補題2および補題3により r(\theta,\delta)\theta について \mathcal{C}-可測関数となるので、(\Theta,\mathcal{C}) 上の事前分布 \pi について平均化したリスク関数を定義することが出来ます。

 定義4  \[ r(\pi,\delta):=\int_{\Theta}r(\theta,\delta)\pi(d\theta)=\int_{\Theta}\pi(d\theta)\int_{\mathcal{X}}P_{\theta}(dx)\int_{\mathcal{D}}w(\theta,a)\delta(da,x)\]をベイズリスク関数と呼ぶ。またベイズリスク関数を最小化する決定関数 \delta を(事前分布 \pi に関する)ベイズ決定関数と呼ぶ。

 ベイズ決定関数を求めることがベイズ推定の目的となります。

ここでベイズリスク関数 r(\pi,\delta) について考察を進めるために必要となる記号および定義を導入します。

まず測度空間 (\mathcal{X}\times\Theta,\mathcal{B}\otimes\mathcal{C})  上の確率測度 P_{\pi}

\[P_{\pi}(F):=\int_{\Theta}\pi(d\theta)\int_{\mathcal{X}}1_{F}(x,\theta)P_{\theta}(dx),\quad F\in\mathcal{B}\otimes\mathcal{C}\]で定義します。(この定義が well-defined であることは、補題3から従います。)

また \begin{gather*} \mathrm{pr}_{X}:\mathcal{X}\times\Theta\to\mathcal{X},\quad(x,\theta)\mapsto x\\ \mathrm{pr}_{\vartheta}:\mathcal{X}\times\Theta\to\Theta,\quad(x,\theta)\mapsto\theta\end{gather*}で定義される射影 \mathrm{pr}_{X}, \mathrm{pr}_{\vartheta} を考えます。後に定義する事後分布に関する直観的な理解を助けるために、\mathrm{pr}_{X} による P_{\pi} の誘導測度をここでは P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot)) という記号を用いて表す*1ことにします。各 C\in\mathcal{C} に対し、(\mathcal{X},\mathcal{B}) 上の測度

\[P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot)\cap\mathrm{pr}_{\vartheta}^{-1}(C))(B):=P_{\pi}(\mathrm{pr}_{X}^{-1}(B)\cap\mathrm{pr}_{\vartheta}^{-1}(C))=P_{\pi}(B\times C),\quad B\in\mathcal{B}\] は P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot)) に関して絶対連続となります。実際、 P_{\pi}(\mathrm{pr}_{X}^{-1}(B))=0 である B\in\mathcal{B} に対して\[P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot)\cap\mathrm{pr}_{\vartheta}^{-1}(C))(B)=P_{\pi}(\mathrm{pr}_{X}^{-1}(B)\cap\mathrm{pr}_{\vartheta}^{-1}(C))\le P_{\pi}(\mathrm{pr}_{X}^{-1}(B))=0.\]

よって各 C\in\mathcal{C} に対し、ラドン・ニコディム微分\[\pi(C\,|\,x):=\frac{dP_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot)\cap\mathrm{pr}_{\vartheta}^{-1}(C))}{dP_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot))}(x),\quad x\in\mathcal{X}\] が存在し、\[P_{\pi}(B\times C)=\int_{B}\pi(C\,|\,x)P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))\]が成り立ちます。

定理5 \pi(\cdot\,|\,x)P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot)) \text{-a.a.}  \ x\in\mathcal{X} に対して (\Theta,\mathcal{C}) 上の確率測度となる。\pi(\cdot\,|\,x) を観測値 x\in\mathcal{X} を得たときの \vartheta に関する事後分布という。

証明  まず \pi(\cdot\,|\,x) が測度であることを示す。C_{i}\in\mathcal{C} (i\in\mathbf{N}) が C_{i}\cap C_{j}=\emptyset を満たすとき、任意の B\in\mathcal{B} に対し\[\begin{split}P_{\pi}\left(B\times\bigcup_{i=1}^{\infty}C_{i}\right) & =P_{\pi}\left(\bigcup_{i=1}^{\infty}(B\times C_{i})\right)\\ & =\sum_{i=1}^{\infty}P_{\pi}(B\times C_{i})\\ & =\sum_{i=1}^{\infty}\int_{B}\pi(C_{i}\,|\,x)P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))\\ & =\int_{B}\sum_{i=1}^{\infty}\pi(C_{i}\,|\,x)P_{\pi}(\mathrm{pr}_{X}^{-1}(dx)).\end{split}\]また\[P_{\pi}\left(B\times\bigcup_{i=1}^{\infty}C_{i}\right)=\int_{B}\pi\left(\bigcup_{i=1}^{\infty}C_{i}\,\Bigg|\,x\right)P_{\pi}(\mathrm{pr}_{X}^{-1}(dx)).\]よって\begin{equation}\pi\left(\bigcup_{i=1}^{\infty}C_{i}\,\Bigg|\,x\right)=\sum_{i=1}^{\infty}\pi(C_{i}\,|\,x),\quad P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot))\text{-a.a.}\,x\in\mathcal{X}.\label{eq:countable_additivity_of_Posterior}\end{equation}

いま\[B:=\{\,x\in\mathcal{X}\,|\,\pi(\emptyset\,|\,x)>0\,\}\]に対し、\( P_{\pi}(\mathrm{pr}_{X}^{-1}(B))>0 \) とすると\[ 0=P_{\pi}(B\times\emptyset)=\int_{B}\pi(\emptyset\,|\,x)P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))>0\]となり矛盾。よって\begin{equation}\pi(\emptyset\,|\,x)=0,\quad P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot))\text{-a.a}.\,x\in\mathcal{X}.\label{eq:Posterior_for_empty_set}\end{equation}一方、任意の B\in \mathcal{B} に対し\[P_{\pi}(B\times\Theta)=P_{\pi}(\mathrm{pr}_{X}^{-1}(B))=\int_{B}P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))\]であるからラドン・ニコディム微分の一意性より\begin{equation}\pi(\Theta\,|\,x)=1,\quad P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot))\text{-a.a}.\,x\in\mathcal{X}.\label{eq:Posterior_for_total_set}\end{equation}

\eqref{eq:countable_additivity_of_Posterior}, \eqref{eq:Posterior_for_empty_set},  \eqref{eq:Posterior_for_total_set} が成り立つことから、\pi(\cdot\,|\,x)P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot))  \text{-a.a.} x\in\mathcal{X} に対して (\Theta,\mathcal{C}) 上の確率測度となる。(証明終)

 

 上記で定義した P_{\pi}、および事後分布 \pi(\cdot\,|\,x) を用いるとベイズリスク関数は\[\begin{split}r(\pi,\delta) & :=\int_{\Theta}\pi(d\theta)\int_{\mathcal{X}}P_{\theta}(dx)\int_{\mathcal{D}}w(\theta,a)\delta(da,x)\\ & =\int_{\mathcal{X}\times\Theta}P_{\pi}(d(x,\theta))\int_{\mathcal{D}}w(\theta,a)\delta(da,x)\\ & =\int_{\mathcal{X}}P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))\int_{\Theta}\pi(d\theta\,|\,x)\int_{\mathcal{D}}w(\theta,a)\delta(da,x)\\ & =\int_{\mathcal{X}}P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))\int_{\mathcal{D}}\delta(da,x)\int_{\Theta}w(\theta,a)\pi(d\theta\,|\,x)\end{split}\]と書くことが出来ます。(最後の等式はフビニの定理により従います。)

 定義6 \[w(\pi,a\,|\,x):=\int_{\Theta}w(\theta,a)\pi(d\theta\,|\,x)\]を、事後分布 \pi(\cdot \,|\,x) の下で行動 a\in\mathcal{D} をとる場合の事後損失関数と呼ぶ。

 

次の定理により、観測値 x に応じて事後損失関数 w(\pi,a\,|\,x) を最小化するような行動を(確率 1 で)とるような決定関数はベイズ決定関数になっていることが分かります。

 定理7 (\mathcal{X},\mathcal{B},\mathcal{P},\Theta,\mathcal{D},\mathcal{A},w,\Delta) を仮定1を満たす統計的決定問題 、\pi(\Theta,\mathcal{C}) 上の事前分布とする。さらに \( \inf_{\delta\in\Delta}r(\pi,\delta)<\infty \) 、\mathrm{arg} \min_{a \in\mathcal{D}} w(\pi,a\,|\,x) \in\mathcal{A} を満たすとする。このとき\[ \delta_{0}\left( \underset{a \in\mathcal{D}}{\mathrm{arg\, min}} \  w(\pi,a\,|\,x),\,x\right)=1,\quad P_{\pi}(\mathrm{pr}_{X}^{-1}(\cdot))\text{-a.a.}\,x\in\mathcal{X}\]を満たす決定関数 \delta_{0}\in\Deltaベイズ決定関数となる。

 証明  任意の \delta\in\Delta に対し、\[\begin{split}r(\pi,\delta) & =\int_{\mathcal{X}}P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))\int_{\mathcal{D}}w(\pi,a\,|\,x)\delta(da,x)\\ & \ge\int_{\mathcal{X}}P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))\int_{\mathcal{D}}\min_{a'\in\mathcal{D}}w(\pi,a'\,|\,x)\delta(da,x)\\ & =\int_{\mathcal{X}}\min_{a\in\mathcal{D}}w(\pi,a\,|\,x)P_{\pi}(\mathrm{pr}_{X}^{-1}(dx)).\end{split}\]一方、仮定より\[\begin{split} \int_{\mathcal{D}} w(\pi,a\,|\,x)\delta_{0}(da,x) &=\int_{\underset{a' \in\mathcal{D}}{\mathrm{arg\, min}} \ w(\pi,a’\,|\,x)} w(\pi,a\,|\,x)\delta_{0}(da,x)\\ & =\min_{a\in\mathcal{D}}w(\pi,a\,|\,x) \end{split}\]であるから、\[ \begin{split} r(\pi,\delta_{0}) & =\int_{\mathcal{X}}P_{\pi}(\mathrm{pr}_{X}^{-1}(dx))\int_{\mathcal{D}}w(\pi,a\,|\,x)\delta_{0}(da,x) \\ & =\int_{\mathcal{X}}\min_{a\in\mathcal{D}}w(\pi,a\,|\,x)P_{\pi}(\mathrm{pr}_{X}^{-1}(dx)).\end{split}\]よって r(\pi,\delta)\ge r(\pi,\delta_{0}) となる。(証明終)

*1:通常、P_{\pi}^{\mathrm{pr}_{X}} のように書かれます。