測度論的相対エントロピー - 数学、ときどき統計、ところによりＩＴ

今回は一般の可測空間上の 2 つの確率測度に対する相対エントロピーおよびそれに関する基本定理について紹介します。

以下、対数の底は自然対数 $e$ に限定するため、対数を表記するときは底を明記せず単に $\log$ と書くことにします。また $a/0=\infty$ $(a\gt 0)$ 、 $0\log0=0$ 、 $0\log(0/0)=0$ とします。

定義　 $(\Omega,\mathcal{F})$ を可測空間、 $\mathcal{G}$ を $\mathcal{F}$ の部分 $\sigma$ -加法族とする。

$\mathcal{G}$ の有限部分集合族 $\tilde{A}:=\{A_{1},\ldots,A_{n}\}$ が $\displaystyle \Omega=\bigcup_{i=1}^{n}A_{i},\quad A_{i}\cap A_{j}=\phi(i\neq j)$ を満たすとき、 $\tilde{A}$ を $\Omega$ の有限 $\mathcal{G}$ 可測分割と呼び、 $\Omega$ の有限 $\mathcal{G}$ 可測分割全体を $\mathcal{P}_{\mathcal{G}}(\Omega)$ と書く。 $\mathcal{P}_{\mathcal{F}}(\Omega)$ は単に $\mathcal{P}(\Omega)$ と書き、これを $\Omega$ の有限可測分割と呼ぶ。
$(\Omega,\mathcal{F})$ 上の確率測度 $\mu$ 、 $\nu$ に対して $\displaystyle D_{\mathcal{G}}(\mu\parallel\nu):=\sup\left\{\sum_{A\in\tilde{A}}\mu(A)\log\frac{\mu(A)}{\nu(A)}\,\bigg|\,\tilde{A}\in\mathcal{P}_{\mathcal{G}}(\Omega)\right\}$ を $\mathcal{G}$ に関する $\mu$ の $\nu$ に対する（測度論的）相対エントロピーと呼ぶ。 $D_{\mathcal{F}}(\mu\parallel\nu)$ は単に $D(\mu\parallel\nu)$ と書き、これを $\mu$ の $\nu$ に対する（測度論的）相対エントロピーと呼ぶ。

測度空間 $(\Omega,\mathcal{F})$ 上の $\sigma$ -有限な測度 $\mu$ 、 $\nu$ について、 $\mu$ が $\nu$ に対して絶対連続であるとき $\mu\ll\nu$ と書くことにします。

定理（ゲルファント-コルモゴロフ-ヤグロムの定理）　 $(\Omega,\mathcal{F})$ を可測空間、 $\mu$ 、 $\nu$ を $(\Omega,\mathcal{F})$ 上の確率測度とするとき、次が成り立つ：\begin{equation*}D(\mu\parallel\nu)=\begin{cases}{\displaystyle \int_{\Omega} \frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu} & \mu\ll\nu\\\infty & \mu\not\ll\nu\end{cases}\end{equation*}

$\mu\not\ll\nu$ の場合、 $\nu(A)=0$ かつ $\mu(A)\gt 0$ となる $A\in\mathcal{F}$ が存在します。この $A$ を含む有限可測分割 $\{A,A^{c}\}$ を考えれば $D(\mu\parallel\nu)=\infty$ となることが直ちに示されます。よって以下、 $\mu\ll\nu$ の場合について定理を証明します。証明は補題 1 および補題 2 の 2 段階に分けて行います。

補題１　 $\mu\ll\nu$ のとき\begin{equation}D(\mu\parallel\nu)\le\int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu.\label{eq:GKY:inequality_less}\end{equation}

証明　 $\mu\ll\nu$ のとき、ラドン-ニコディムの定理より

$\mu(A)=\int_{A}\frac{d\mu}{d\nu}d\nu,\quad A\in\mathcal{F}$

を満たす $d\mu/d\nu\in L^{1}(\Omega,\mathcal{F},\nu)$ がただ一つ存在する。

$\nu(A)\gt 0$ である $A\in\mathcal{F}$ に対して\begin{equation}\mu(A)\log\frac{\mu(A)}{\nu(A)}\le\int_{A}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu\label{eq:GKY:inequality_less_lemma}\end{equation}を示す。

\eqref{eq:GKY:inequality_less_lemma} の右辺の積分が $\infty$ の場合 \eqref{eq:GKY:inequality_less_lemma} が成り立つのは明らかであるから、右辺の積分が有限な場合を考える。関数 $h(t)=t\log t$ ( $t\gt 0$ ) は凸関数であるからイェンセンの不等式より

$\displaystyle \left(\int_{A}f \frac{d\nu}{\nu(A)}\right)\log\left(\int_{A}f \frac{d\nu}{\nu(A)}\right)\le \int_{A} f\log f \frac{d\nu}{\nu(A)}.$

特に $f=d\mu/d\nu$ の場合、

$\displaystyle \left( \int_{A}\frac{d\mu}{d\nu} \frac{d\nu}{\nu(A)}\right)\log\left(\int_{A}\frac{d\mu}{d\nu}\frac{d\nu}{\nu(A)}\right)\le \int_{A}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu} \frac{d\nu}{\nu(A)}$

となり \eqref{eq:GKY:inequality_less_lemma} を得る。\eqref{eq:GKY:inequality_less} は \eqref{eq:GKY:inequality_less_lemma} から直ちに従う。（証明終）

補題２　 $\mu\ll\nu$ のとき\begin{equation}D(\mu\parallel\nu)\ge\int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu.\label{eq:GKY:inequality_greater}\end{equation}

証明　 $A_{n,k}$ ( $k=0$ , $1$ , $\ldots$ , $2^{n}n-1$ ) および $A_{n,2^{n}n}$ を\begin{gather*}A_{n,k}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{k}{2^{n}}\le\frac{d\mu}{d\nu}(\omega)<\frac{k+1}{2^{n}}\right\} ,\\A_{n,2^{n}n}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)\ge n\right\} \end{gather*}とすると $\tilde{A}_{n}:=\{A_{n,k}\}_{k=0}^{2^{n}n}$ は $\Omega$ の有限可測分割である。

各 $A_{n,k}$ ( $k=0$ , $1$ , $\ldots$ , $2^{n}n-1$ ) に対して

$\displaystyle \frac{k}{2^{n}}\nu(A_{n,k})\le\int_{A_{n,k}}\frac{d\mu}{d\nu}d\nu=\mu(A_{n,k})\lt \frac{k+1}{2^{n}}\nu(A_{n,k}),$

より\begin{equation}\frac{k}{2^{n}}\le\frac{\mu(A_{n,k})}{\nu(A_{n,k})}<\frac{k+1}{2^{n}}.\label{eq:GKY:range_of_ratio_1}\end{equation}また

$\displaystyle \mu(A_{n,2^{n}n})=\int_{A_{n,2^{n}n}}\frac{d\mu}{d\nu}d\nu\ge n\nu(A_{n,2^{n}n})$

より $\nu(A_{n,2^{n}n})\gt 0$ のとき\begin{equation}\frac{\mu(A_{n,2^{n}n})}{\nu(A_{n,2^{n}n})}\ge n.\label{eq:GKY:range_of_ratio_2}\end{equation}

いま $\Omega$ 上の関数 $f_{n}$ 、 $g_{n}$ を\begin{gather*}f_{n}(\omega):=\sum_{k=0}^{2^{n}n-1}\,\frac{k}{2^{n}}\,1_{A_{n,k}}(\omega),\\g_{n}(\omega):=\sum_{k=0}^{2^{n}n-1}\,\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,1_{A_{n,k}}(\omega)\end{gather*}とすると、 $A_{n,k}$ の定義および \eqref{eq:GKY:range_of_ratio_1} より $\omega\in A_{n,k}$ ( $k=0$ , $1$ , $\ldots$ , $2^{n}n-1$ ) に対して\begin{gather}f_{n}(\omega)=\frac{k}{2^{n}}\le\frac{d\mu}{d\nu}(\omega)<\frac{k+1}{2^{n}},\label{eq:GKY:range_of_RN_derivative}\\f_{n}(\omega)=\frac{k}{2^{n}}\le g_{n}(\omega)<\frac{k+1}{2^{n}}\label{eq:GKY:range_of_ratio}\end{gather}であるから、 $\nu$ に関し、ほとんど全ての $\omega\in\Omega\backslash A_{n,2^{n}n}$ に対して\begin{gather}0\le\frac{d\mu}{d\nu}(\omega)-f_{n}(\omega)<\frac{1}{2^{n}},\label{eq:GKY:estimation_for_approximation}\\\left|\frac{d\mu}{d\nu}(\omega)-g_{n}(\omega)\right|<\frac{1}{2^{n}}.\label{eq:GKY:estimation_for_ratio}\end{gather}また $d\mu/d\nu\in L^{1}(\Omega,\mathcal{F},\nu)$ より\begin{equation}\nu\left(\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)=\infty\right\} \right)=0.\label{eq:GKY:RN_derivative_equal_infinity_is_null_set}\end{equation} \eqref{eq:GKY:estimation_for_approximation} \eqref{eq:GKY:estimation_for_ratio} \eqref{eq:GKY:RN_derivative_equal_infinity_is_null_set} より\begin{equation}\lim_{n\to\infty}f_{n}=\lim_{n\to\infty}g_{n}=\frac{d\mu}{d\nu},\quad\nu\text{-a.e.}\label{eq:GKY:limit_of_approximation}\end{equation}さらに $\tilde{A}_{n+1}$ は $\tilde{A}_{n}$ の細分になっているから、 $\Omega$ 上で\begin{equation}f_{n}\le f_{n+1}.\label{eq:GKY:monotonicity}\end{equation}ここで\begin{gather*}A_{\ge1}:=\left\{ \omega\in\Omega\,\bigg|\,\frac{d\mu}{d\nu}(\omega)\ge1\right\} =\bigcup_{k=2^{n}}^{2^{n}n}A_{n,k},\\A_{<1}:=\left\{ \omega\in\Omega\,\bigg|\,0\le\frac{d\mu}{d\nu}(\omega)<1\right\} =\bigcup_{k=0}^{2^{n}-1}A_{n,k}\end{gather*}とおく。

積分 $\int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu$ を評価する。関数 $h(t)=t\log t$ は $t\ge1$ で単調増加関数であり、また $f_{n}$ は $A_{\ge1}$ 上で $f_{n}\ge1$ を満たす単調増加列であるから、 $\{f_{n}\log f_{n}\}_{n=1}^{\infty}$ は $A_{\ge1}$ 上で非負な単調増加関数列となる。よって単調収束定理より

$\displaystyle \int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu=\int_{A_{\ge1}}\lim_{n\to\infty}f_{n}\log f_{n}d\nu=\lim_{n\to\infty}\int_{A_{\ge1}}f_{n}\log f_{n}d\nu,$

つまり任意の $\varepsilon\gt 0$ に対して $N_{1}\in\mathbf{N}$ が存在して

$\displaystyle 0\lt \int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu-\int_{A_{\ge1}}f_{n}\log f_{n}d\nu\lt \frac{\varepsilon}{2},\quad\forall n\gt N_{1}.$

ここで \eqref{eq:GKY:range_of_ratio} より $A_{\ge1}$ 上で $1\le f_{n}\le g_{n}$ であるから\begin{equation}\int_{A_{\ge1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu<\int_{A_{\ge1}}g_{n}\log g_{n}d\nu+\frac{\varepsilon}{2},\quad\forall n>N_{1}.\label{eq:GKY:estimation_for_integral_1}\end{equation}

次に積分 $\displaystyle \int_{A_{\lt 1}} \frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu$ を評価する。\eqref{eq:GKY:range_of_ratio} より $\omega\in A_{\lt 1}$ に対して $0\le g_{n}(\omega)\lt 1$ であるから、 $A_{\lt 1}$ 上で

$\left|g_{n}\log g_{n}\right|\le e^{-1}1_{A_{\lt 1}}.$

よってルベーグの優収束定理より

$\displaystyle \int_{A_{\lt 1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu=\int_{A_{\lt 1}}\lim_{n\to\infty}g_{n}\log g_{n}d\nu=\lim_{n\to\infty}\int_{A_{\ge1}}g_{n}\log g_{n}d\nu,$

つまり任意の $\varepsilon\gt 0$ に対して $N_{2}\in\mathbf{N}$ が存在して\begin{equation}\int_{A_{<1}}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu<\int_{A_{<1}}g_{n}\log g_{n}d\nu+\frac{\varepsilon}{2},\quad\forall n>N_{2}.\label{eq:GKY:estimation_for_integral_2}\end{equation}

\eqref{eq:GKY:estimation_for_integral_1} \eqref{eq:GKY:estimation_for_integral_2}より $n\gt \max\{N_{1},N_{2}\}$ である全ての $n$ に対して

$\displaystyle \int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu \lt \int_{\Omega}g_{n}\log g_{n}d\nu+\varepsilon=\sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,+\varepsilon .$

ここで $d\mu/d\nu$ が（殆どいたるところで）有界の場合、つまり $\nu(A_{n,2^{n}n})=0$ となる $n$ が存在する場合、 $\mu\ll\nu$ より $\mu(A_{n,2^{n}n})=0$ となることから $0\log(0/0)=0$ によって

$\displaystyle \sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}=\sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}.$

また全ての $n$ で $\nu(A_{n,2^{n}n})\gt 0$ となる場合、\eqref{eq:GKY:range_of_ratio_2}より

$\displaystyle \log\frac{\mu(A_{n,2^{n}n})}{\nu(A_{n,2^{n}n})}\gt 0$

であるから

$\displaystyle \sum_{k=0}^{2^{n}n-1}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\lt \sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}.$

よって

$\displaystyle \int_{\Omega}\frac{d\mu}{d\nu}\log\frac{d\mu}{d\nu}d\nu \lt \sum_{k=0}^{2^{n}n}\mu(A_{n,k})\log\frac{\mu(A_{n,k})}{\nu(A_{n,k})}\,+\varepsilon\le D(\mu\parallel\nu)+\varepsilon.$

$\varepsilon\gt 0$ は任意であるから \eqref{eq:GKY:inequality_greater} が成り立つ。（証明終）