数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

測度論的相対エントロピー

今回は一般の可測空間上の 2 つの確率測度に対する相対エントロピーおよびそれに関する基本定理について紹介します。

以下、対数の底は自然対数 e に限定するため、対数を表記するときは底を明記せず単に \log と書くことにします。また a/0=\infty \( (a>0)\)、0\log0=00\log(0/0)=0 とします。

定義 (\Omega,\mathcal{F}) を可測空間、\mathcal{G}\mathcal{F} の部分 \sigma-加法族とする。

  1. \mathcal{G} の有限部分集合族 \tilde{A}:=\{A_{1},\ldots,A_{n}\} が\[\Omega=\bigcup_{i=1}^{n}A_{i},\quad A_{i}\cap A_{j}=\phi(i\neq j)\]を満たすとき、\tilde{A}\Omega の有限 \mathcal{G} 可測分割と呼び、\Omega の有限 \mathcal{G} 可測分割全体を \mathcal{P}_{\mathcal{G}}(\Omega) と書く。\mathcal{P}_{\mathcal{F}}(\Omega) は単に \mathcal{P}(\Omega) と書き、これを \Omega の有限可測分割と呼ぶ。
  2. (\Omega,\mathcal{F}) 上の確率測度 \mu\nu に対して\[D_{\mathcal{G}}(\mu\parallel\nu):=\sup\left\{\sum_{A\in\tilde{A}}\mu(A)\log\frac{\mu(A)}{\nu(A)}\,\bigg|\,\tilde{A}\in\mathcal{P}_{\mathcal{G}}(\Omega)\right\} \]を \mathcal{G} に関する \mu\nu に対する(測度論的)相対エントロピーと呼ぶ。D_{\mathcal{F}}(\mu\parallel\nu) は単に D(\mu\parallel\nu) と書き、これを \mu\nu に対する(測度論的)相対エントロピーと呼ぶ。

 

測度空間 (\Omega,\mathcal{F}) 上の \sigma-有限な測度 \mu\nu について、\mu\nu に対して絶対連続であるとき \mu\ll\nu と書くことにします。

定理(ゲルファント-コルモゴロフ-ヤグロムの定理) (\Omega,\mathcal{F}) を可測空間、\mu\nu(\Omega,\mathcal{F}) 上の確率測度とするとき、次が成り立つ:\begin{equation*}D(\mu\parallel\nu)=\begin{cases}{\displaystyle \int_{\Omega} \frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu} & \mu\ll\nu\\\infty & \mu\not\ll\nu\end{cases}\end{equation*}

 

\mu\not\ll\nu の場合、 \nu(A)=0 かつ \(\mu(A)>0\) となる A\in\mathcal{F} が存在します。この A を含む有限可測分割 \{A,A^{c}\} を考えれば D(\mu\parallel\nu)=\infty となることが直ちに示されます。よって以下、\mu\ll\nu の場合について定理を証明します。証明は補題 1 および補題 2 の 2 段階に分けて行います。

補題 \mu\ll\nu のとき\begin{equation}D(\mu\parallel\nu)\le\int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu.\label{eq:GKY:inequality_less}\end{equation}

証明 \mu\ll\nu のとき、ラドン-ニコディムの定理より\[\mu(A)=\int_{A}\frac{d\mu}{d\nu}d\nu,\quad A\in\mathcal{F}\]を満たす d\mu/d\nu\in L^{1}(\Omega,\mathcal{F},\nu) がただ一つ存在する。

\(\nu(A)>0\) である A\in\mathcal{F} に対して\begin{equation}\mu(A)\log\frac{\mu(A)}{\nu(A)}\le\int_{A}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu\label{eq:GKY:inequality_less_lemma}\end{equation}を示す。

\eqref{eq:GKY:inequality_less_lemma} の右辺の積分\infty の場合 \eqref{eq:GKY:inequality_less_lemma} が成り立つのは明らかであるから、右辺の積分が有限な場合を考える。関数 h(t)=t\log t (\(t>0\)) は 凸関数であるからイェンセンの不等式より \[\left(\frac{1}{\nu(A)}\int_{A}fd\nu\right)\log\left(\frac{1}{\nu(A)}\int_{A}fd\nu\right)\le\frac{1}{\nu(A)}\int_{A}f\log fd\nu.\]特に f=d\mu/d\nu の場合、\[\left(\frac{1}{\nu(A)}\int_{A}\frac{d\mu}{d\nu}d\nu\right)\log\left(\frac{1}{\nu(A)}\int_{A}\frac{d\mu}{d\nu}d\nu\right)\le\frac{1}{\nu(A)}\int_{A}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu\]となり \eqref{eq:GKY:inequality_less_lemma} を得る。\eqref{eq:GKY:inequality_less} は \eqref{eq:GKY:inequality_less_lemma} から直ちに従う。(証明終)

 

補題 \mu\ll\nu のとき\begin{equation}D(\mu\parallel\nu)\ge\int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu.\label{eq:GKY:inequality_greater}\end{equation}

証明 A_{n,k} (k=0, 1, \ldots, 2^{n}n-1) および A_{n,2^{n}n} を\begin{gather*}A_{n,k}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{k}{2^{n}}\le\frac{d\mu}{d\nu}(\omega)<\frac{k+1}{2^{n}}\right\} ,\\A_{n,2^{n}n}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)\ge n\right\} \end{gather*}とすると \tilde{A}_{n}:=\{A_{n,k}\}_{k=0}^{2^{n}n}\Omega の有限可測分割である。

A_{n,k} (k=0, 1, \ldots, 2^{n}n-1) に対して\[\frac{k}{2^{n}}\nu(A_{n,k})\le\int_{A_{n,k}}\frac{d\mu}{d\nu}d\nu=\mu(A_{n,k})<\frac{k+1}{2^{n}}\nu(A_{n,k}),\]より\begin{equation}\frac{k}{2^{n}}\le\frac{\mu(A_{n,k})}{\nu(A_{n,k})}<\frac{k+1}{2^{n}}.\label{eq:GKY:range_of_ratio_1}\end{equation}また\[\mu(A_{n,2^{n}n})=\int_{A_{n,2^{n}n}}\frac{d\mu}{d\nu}d\nu\ge n\nu(A_{n,2^{n}n})\]より \(\nu(A_{n,2^{n}n})>0\) のとき\begin{equation}\frac{\mu(A_{n,2^{n}n})}{\nu(A_{n,2^{n}n})}\ge n.\label{eq:GKY:range_of_ratio_2}\end{equation}

いま \Omega 上の関数 f_{n}g_{n} を\begin{gather*}f_{n}(\omega):=\sum_{k=0}^{2^{n}n-1}\,\frac{k}{2^{n}}\,\chi_{A_{n,k}}(\omega),\\g_{n}(\omega):=\sum_{k=0}^{2^{n}n-1}\,\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,\chi_{A_{n,k}}(\omega)\end{gather*}とすると、A_{n,k} の定義および \eqref{eq:GKY:range_of_ratio_1} より \omega\in A_{n,k} (k=0, 1, \ldots, 2^{n}n-1) に対して\begin{gather}f_{n}(\omega)=\frac{k}{2^{n}}\le\frac{d\mu}{d\nu}(\omega)<\frac{k+1}{2^{n}},\label{eq:GKY:range_of_RN_derivative}\\f_{n}(\omega)=\frac{k}{2^{n}}\le g_{n}(\omega)<\frac{k+1}{2^{n}}\label{eq:GKY:range_of_ratio}\end{gather}であるから、\nu に関し、ほとんど全ての \omega\in\Omega\backslash A_{n,2^{n}n} に対して\begin{gather}0\le\frac{d\mu}{d\nu}(\omega)-f_{n}(\omega)<\frac{1}{2^{n}},\label{eq:GKY:estimation_for_approximation}\\\left|\frac{d\mu}{d\nu}(\omega)-g_{n}(\omega)\right|<\frac{1}{2^{n}}.\label{eq:GKY:estimation_for_ratio}\end{gather}また d\mu/d\nu\in L^{1}(\Omega,\mathcal{F},\nu) より\begin{equation}\nu\left(\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)=\infty\right\} \right)=0.\label{eq:GKY:RN_derivative_equal_infinity_is_null_set}\end{equation} \eqref{eq:GKY:estimation_for_approximation} \eqref{eq:GKY:estimation_for_ratio} \eqref{eq:GKY:RN_derivative_equal_infinity_is_null_set} より\begin{equation}\lim_{n\to\infty}f_{n}=\lim_{n\to\infty}g_{n}=\frac{d\mu}{d\nu},\quad\nu\text{-a.e.}\label{eq:GKY:limit_of_approximation}\end{equation}さらに \tilde{A}_{n+1}\tilde{A}_{n} の細分になっているから、\Omega 上で\begin{equation}f_{n}\le f_{n+1}.\label{eq:GKY:monotonicity}\end{equation}ここで\begin{gather*}A_{\ge1}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)\ge1\right\} =\bigcup_{k=2^{n}}^{2^{n}n}A_{n,k},\\A_{<1}:=\left\{ \omega\in\Omega\,\bigg|\,0\le\frac{d\mu}{d\nu}(\omega)<1\right\} =\bigcup_{k=0}^{2^{n}-1}A_{n,k}\end{gather*}とおく。

積分 \int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu を評価する。関数 h(t)=t\log tt\ge1 で単調増加関数であり、また f_{n}A_{\ge1} 上で f_{n}\ge1 を満たす単調増加列であるから、 \{f_{n}\log f_{n}\}_{n=1}^{\infty}A_{\ge1} 上で非負な単調増加関数列となる。よって単調収束定理より\[\int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu=\int_{A_{\ge1}}\lim_{n\to\infty}f_{n}\log f_{n}d\nu=\lim_{n\to\infty}\int_{A_{\ge1}}f_{n}\log f_{n}d\nu,\]つまり任意の \(\varepsilon>\) に対して N_{1}\in\mathbf{N} が存在して\[0<\int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu-\int_{A_{\ge1}}f_{n}\log f_{n}d\nu<\frac{\varepsilon}{2},\quad\forall n>N_{1}.\]

ここで \eqref{eq:GKY:range_of_ratio} より A_{\ge1} 上で 1\le f_{n}\le g_{n} であるから\begin{equation}\int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu<\int_{A_{\ge1}}g_{n}\log g_{n}d\nu+\frac{\varepsilon}{2},\quad\forall n>N_{1}.\label{eq:GKY:estimation_for_integral_1}\end{equation}

次に積分 \(\int_{A_{<1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu\) を評価する。\eqref{eq:GKY:range_of_ratio} より \(\omega\in A_{<1}\) に対して \(0\le g_{n}(\omega)<1\) であるから、\(A_{<1}\) 上で \[\left|g_{n}\log g_{n}\right|\le e^{-1}\chi_{A_{<1}}.\]よってルベーグの優収束定理より\[\int_{A_{<1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu=\int_{A_{<1}}\lim_{n\to\infty}g_{n}\log g_{n}d\nu=\lim_{n\to\infty}\int_{A_{\ge1}}g_{n}\log g_{n}d\nu,\]つまり任意の \(\varepsilon>0\) に対して N_{2}\in\mathbf{N} が存在して\begin{equation}\int_{A_{<1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu<\int_{A_{<1}}g_{n}\log g_{n}d\nu+\frac{\varepsilon}{2},\quad\forall n>N_{2}.\label{eq:GKY:estimation_for_integral_2}\end{equation}

\eqref{eq:GKY:estimation_for_integral_1} \eqref{eq:GKY:estimation_for_integral_2}より \(n>\max\{N_{1},N_{2}\}\) である全ての n に対して\[\int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu<\int_{\Omega}g_{n}\log g_{n}d\nu+\varepsilon=\sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,+\varepsilon .\]

ここで d\mu/d\nu が(殆どいたるところで)有界の場合、つまり \nu(A_{n,2^{n}n})=0 となる n が存在する場合、\mu\ll\nu より \mu(A_{n,2^{n}n})=0 となることから 0\log(0/0)=0 によって\[\sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}=\sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}.\]また全ての n で \(\nu(A_{n,2^{n}n})>0\) となる場合、\eqref{eq:GKY:range_of_ratio_2}より\[\log\frac{\mu(A_{n,2^{n}n})}{\nu(A_{n,2^{n}n})}>0\]であるから\[\sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}<\sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}.\]よって\[\int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu < \sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,+\varepsilon\le D(\mu\parallel\nu)+\varepsilon.\]\(\varepsilon>0\) は任意であるから \eqref{eq:GKY:inequality_greater} が成り立つ。(証明終)