数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

測度論的相対エントロピー

今回は一般の可測空間上の 2 つの確率測度に対する相対エントロピーおよびそれに関する基本定理について紹介します。

以下、対数の底は自然対数 e に限定するため、対数を表記するときは底を明記せず単に \log と書くことにします。また a/0=\infty  (a\gt 0)0\log0=00\log(0/0)=0 とします。

定義 (\Omega,\mathcal{F}) を可測空間、\mathcal{G}\mathcal{F} の部分 \sigma-加法族とする。

  1. \mathcal{G} の有限部分集合族 \tilde{A}:=\{A_{1},\ldots,A_{n}\}
     \displaystyle \Omega=\bigcup_{i=1}^{n}A_{i},\quad A_{i}\cap A_{j}=\phi(i\neq j)
    を満たすとき、\tilde{A}\Omega の有限 \mathcal{G} 可測分割と呼び、\Omega の有限 \mathcal{G} 可測分割全体を \mathcal{P}_{\mathcal{G}}(\Omega) と書く。\mathcal{P}_{\mathcal{F}}(\Omega) は単に \mathcal{P}(\Omega) と書き、これを \Omega の有限可測分割と呼ぶ。
  2. (\Omega,\mathcal{F}) 上の確率測度 \mu\nu に対して
     \displaystyle D_{\mathcal{G}}(\mu\parallel\nu):=\sup\left\{\sum_{A\in\tilde{A}}\mu(A)\log\frac{\mu(A)}{\nu(A)}\,\bigg|\,\tilde{A}\in\mathcal{P}_{\mathcal{G}}(\Omega)\right\}
    \mathcal{G} に関する \mu\nu に対する(測度論的)相対エントロピーと呼ぶ。D_{\mathcal{F}}(\mu\parallel\nu) は単に D(\mu\parallel\nu) と書き、これを \mu\nu に対する(測度論的)相対エントロピーと呼ぶ。

 

測度空間 (\Omega,\mathcal{F}) 上の \sigma-有限な測度 \mu\nu について、\mu\nu に対して絶対連続であるとき \mu\ll\nu と書くことにします。

定理(ゲルファント-コルモゴロフ-ヤグロムの定理) (\Omega,\mathcal{F}) を可測空間、\mu\nu(\Omega,\mathcal{F}) 上の確率測度とするとき、次が成り立つ:\begin{equation*}D(\mu\parallel\nu)=\begin{cases}{\displaystyle \int_{\Omega} \frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu} & \mu\ll\nu\\\infty & \mu\not\ll\nu\end{cases}\end{equation*}

 

\mu\not\ll\nu の場合、 \nu(A)=0 かつ \mu(A)\gt 0 となる A\in\mathcal{F} が存在します。この A を含む有限可測分割 \{A,A^{c}\} を考えれば D(\mu\parallel\nu)=\infty となることが直ちに示されます。よって以下、\mu\ll\nu の場合について定理を証明します。証明は補題 1 および補題 2 の 2 段階に分けて行います。

補題 \mu\ll\nu のとき\begin{equation}D(\mu\parallel\nu)\le\int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu.\label{eq:GKY:inequality_less}\end{equation}

証明 \mu\ll\nu のとき、ラドン-ニコディムの定理より

 \mu(A)=\int_{A}\frac{d\mu}{d\nu}d\nu,\quad A\in\mathcal{F}

を満たす d\mu/d\nu\in L^{1}(\Omega,\mathcal{F},\nu) がただ一つ存在する。

\nu(A)\gt 0 である A\in\mathcal{F} に対して\begin{equation}\mu(A)\log\frac{\mu(A)}{\nu(A)}\le\int_{A}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu\label{eq:GKY:inequality_less_lemma}\end{equation}を示す。

\eqref{eq:GKY:inequality_less_lemma} の右辺の積分\infty の場合 \eqref{eq:GKY:inequality_less_lemma} が成り立つのは明らかであるから、右辺の積分が有限な場合を考える。関数 h(t)=t\log t ( t\gt 0) は 凸関数であるからイェンセンの不等式より

 \displaystyle \left(\int_{A}f \frac{d\nu}{\nu(A)}\right)\log\left(\int_{A}f \frac{d\nu}{\nu(A)}\right)\le \int_{A} f\log f \frac{d\nu}{\nu(A)}.

特に f=d\mu/d\nu の場合、

\displaystyle \left( \int_{A}\frac{d\mu}{d\nu} \frac{d\nu}{\nu(A)}\right)\log\left(\int_{A}\frac{d\mu}{d\nu}\frac{d\nu}{\nu(A)}\right)\le \int_{A}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu} \frac{d\nu}{\nu(A)}

となり \eqref{eq:GKY:inequality_less_lemma} を得る。\eqref{eq:GKY:inequality_less} は \eqref{eq:GKY:inequality_less_lemma} から直ちに従う。(証明終)

 

補題 \mu\ll\nu のとき\begin{equation}D(\mu\parallel\nu)\ge\int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu.\label{eq:GKY:inequality_greater}\end{equation}

証明 A_{n,k} (k=0, 1, \ldots, 2^{n}n-1) および A_{n,2^{n}n} を\begin{gather*}A_{n,k}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{k}{2^{n}}\le\frac{d\mu}{d\nu}(\omega)<\frac{k+1}{2^{n}}\right\} ,\\A_{n,2^{n}n}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)\ge n\right\} \end{gather*}とすると \tilde{A}_{n}:=\{A_{n,k}\}_{k=0}^{2^{n}n}\Omega の有限可測分割である。

A_{n,k} (k=0, 1, \ldots, 2^{n}n-1) に対して

 \displaystyle \frac{k}{2^{n}}\nu(A_{n,k})\le\int_{A_{n,k}}\frac{d\mu}{d\nu}d\nu=\mu(A_{n,k})/lt \frac{k+1}{2^{n}}\nu(A_{n,k}),

より\begin{equation}\frac{k}{2^{n}}\le\frac{\mu(A_{n,k})}{\nu(A_{n,k})}<\frac{k+1}{2^{n}}.\label{eq:GKY:range_of_ratio_1}\end{equation}また

 \displaystyle \mu(A_{n,2^{n}n})=\int_{A_{n,2^{n}n}}\frac{d\mu}{d\nu}d\nu\ge n\nu(A_{n,2^{n}n})

より  \nu(A_{n,2^{n}n})\gt 0 のとき\begin{equation}\frac{\mu(A_{n,2^{n}n})}{\nu(A_{n,2^{n}n})}\ge n.\label{eq:GKY:range_of_ratio_2}\end{equation}

いま \Omega 上の関数 f_{n}g_{n} を\begin{gather*}f_{n}(\omega):=\sum_{k=0}^{2^{n}n-1}\,\frac{k}{2^{n}}\,1_{A_{n,k}}(\omega),\\g_{n}(\omega):=\sum_{k=0}^{2^{n}n-1}\,\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,1_{A_{n,k}}(\omega)\end{gather*}とすると、A_{n,k} の定義および \eqref{eq:GKY:range_of_ratio_1} より \omega\in A_{n,k} (k=0, 1, \ldots, 2^{n}n-1) に対して\begin{gather}f_{n}(\omega)=\frac{k}{2^{n}}\le\frac{d\mu}{d\nu}(\omega)<\frac{k+1}{2^{n}},\label{eq:GKY:range_of_RN_derivative}\\f_{n}(\omega)=\frac{k}{2^{n}}\le g_{n}(\omega)<\frac{k+1}{2^{n}}\label{eq:GKY:range_of_ratio}\end{gather}であるから、\nu に関し、ほとんど全ての \omega\in\Omega\backslash A_{n,2^{n}n} に対して\begin{gather}0\le\frac{d\mu}{d\nu}(\omega)-f_{n}(\omega)<\frac{1}{2^{n}},\label{eq:GKY:estimation_for_approximation}\\\left|\frac{d\mu}{d\nu}(\omega)-g_{n}(\omega)\right|<\frac{1}{2^{n}}.\label{eq:GKY:estimation_for_ratio}\end{gather}また d\mu/d\nu\in L^{1}(\Omega,\mathcal{F},\nu) より\begin{equation}\nu\left(\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)=\infty\right\} \right)=0.\label{eq:GKY:RN_derivative_equal_infinity_is_null_set}\end{equation} \eqref{eq:GKY:estimation_for_approximation} \eqref{eq:GKY:estimation_for_ratio} \eqref{eq:GKY:RN_derivative_equal_infinity_is_null_set} より\begin{equation}\lim_{n\to\infty}f_{n}=\lim_{n\to\infty}g_{n}=\frac{d\mu}{d\nu},\quad\nu\text{-a.e.}\label{eq:GKY:limit_of_approximation}\end{equation}さらに \tilde{A}_{n+1}\tilde{A}_{n} の細分になっているから、\Omega 上で\begin{equation}f_{n}\le f_{n+1}.\label{eq:GKY:monotonicity}\end{equation}ここで\begin{gather*}A_{\ge1}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)\ge1\right\} =\bigcup_{k=2^{n}}^{2^{n}n}A_{n,k},\\A_{<1}:=\left\{ \omega\in\Omega\,\bigg|\,0\le\frac{d\mu}{d\nu}(\omega)<1\right\} =\bigcup_{k=0}^{2^{n}-1}A_{n,k}\end{gather*}とおく。

積分 \int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu を評価する。関数 h(t)=t\log tt\ge1 で単調増加関数であり、また f_{n}A_{\ge1} 上で f_{n}\ge1 を満たす単調増加列であるから、 \{f_{n}\log f_{n}\}_{n=1}^{\infty}A_{\ge1} 上で非負な単調増加関数列となる。よって単調収束定理より

 \displaystyle \int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu=\int_{A_{\ge1}}\lim_{n\to\infty}f_{n}\log f_{n}d\nu=\lim_{n\to\infty}\int_{A_{\ge1}}f_{n}\log f_{n}d\nu,

つまり任意の \varepsilon\gt 0 に対して N_{1}\in\mathbf{N} が存在して

 \displaystyle 0\lt \int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu-\int_{A_{\ge1}}f_{n}\log f_{n}d\nu\lt \frac{\varepsilon}{2},\quad\forall n\gt N_{1}.

ここで \eqref{eq:GKY:range_of_ratio} より A_{\ge1} 上で 1\le f_{n}\le g_{n} であるから\begin{equation}\int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu<\int_{A_{\ge1}}g_{n}\log g_{n}d\nu+\frac{\varepsilon}{2},\quad\forall n>N_{1}.\label{eq:GKY:estimation_for_integral_1}\end{equation}

次に積分 \displaystyle \int_{A_{\lt 1}} \frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu を評価する。\eqref{eq:GKY:range_of_ratio} より  \omega\in A_{\lt 1} に対して 0\le g_{n}(\omega)\lt 1 であるから、 A_{\lt 1} 上で

 \left|g_{n}\log g_{n}\right|\le e^{-1}1_{A_{\lt 1}}.

よってルベーグの優収束定理より

\displaystyle \int_{A_{\lt 1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu=\int_{A_{\lt 1}}\lim_{n\to\infty}g_{n}\log g_{n}d\nu=\lim_{n\to\infty}\int_{A_{\ge1}}g_{n}\log g_{n}d\nu,

つまり任意の \varepsilon\gt 0 に対して N_{2}\in\mathbf{N} が存在して\begin{equation}\int_{A_{<1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu<\int_{A_{<1}}g_{n}\log g_{n}d\nu+\frac{\varepsilon}{2},\quad\forall n>N_{2}.\label{eq:GKY:estimation_for_integral_2}\end{equation}

\eqref{eq:GKY:estimation_for_integral_1} \eqref{eq:GKY:estimation_for_integral_2}より n\gt \max\{N_{1},N_{2}\} である全ての n に対して

 \displaystyle \int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu \lt \int_{\Omega}g_{n}\log g_{n}d\nu+\varepsilon=\sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,+\varepsilon .

ここで d\mu/d\nu が(殆どいたるところで)有界の場合、つまり \nu(A_{n,2^{n}n})=0 となる n が存在する場合、\mu\ll\nu より \mu(A_{n,2^{n}n})=0 となることから 0\log(0/0)=0 によって

 \displaystyle \sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}=\sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}.

また全ての n\nu(A_{n,2^{n}n})\gt 0 となる場合、\eqref{eq:GKY:range_of_ratio_2}より

 \displaystyle \log\frac{\mu(A_{n,2^{n}n})}{\nu(A_{n,2^{n}n})}\gt 0

であるから

 \displaystyle \sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\lt \sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}.

よって

 \displaystyle \int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu \lt \sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,+\varepsilon\le D(\mu\parallel\nu)+\varepsilon.

\varepsilon\gt 0 は任意であるから \eqref{eq:GKY:inequality_greater} が成り立つ。(証明終)