シャノンエントロピーとファデエフの公理系 - 数学、ときどき統計、ところによりＩＴ

今回はシャノンエントロピーとその特徴付けであるファデエフの公理系について紹介します。

定義　 $n$ 次元単体

$\displaystyle \Delta_{n}:=\left\{ (p_{1},\ldots,p_{n})\in\mathbf{R}^{n}\, \Bigg| \,\sum_{i=1}^{n}p_{i}=1,\,p_{i}\ge0\,(i=1,2,\ldots,n)\right\}$

上で定義される関数 \begin{equation} S(p_{1},\ldots,p_{n}):=-\sum_{i=1}^{n}p_{i}\log_{2}p_{i},\quad(p_{1},\ldots,p_{n})\in\Delta_{n}\label{eq:definition_Shannon_entropy} \end{equation} をシャノンエントロピー（またはシャノン情報量、平均情報量）と呼ぶ。

上記の定義において $0\log_{2}0=0$ と規約します。

情報を評価する際、日常的に起こっている事柄よりも滅多に起こることのない事柄に関する情報を高く評価することが一般的です。この「滅多に起こることのない事柄」を「発生確率 $p$ が小さい事象」と言い換えて、情報の価値の大きさを $-\log_{2}p$ で表現したものを情報量と呼んでいます。\eqref{eq:definition_Shannon_entropy} は、発生確率が $(p_{1},\ldots,p_{n})$ である $n$ 個の事象からなる系全体の平均的な情報量を表現したものになっています。

次の定理はシャノンエントロピーの特徴付けに関するものです。

定理　シャノンエントロピー $S$ は次の性質を満たす。

$\sigma\in\mathrm{Aut}(\{1,2,\ldots,n\})$ とすると $S(p_{\sigma(1)},\ldots,p_{\sigma(n)})=S(p_{1},\dots,p_{n}),\quad(p_{1},\dots,p_{n})\in\Delta_{n},$
$f(p):=S(p,1-p)(=S(1-p,p))$ は $0\le p\le1$ で連続、
$\displaystyle S\left(\frac{1}{2},\frac{1}{2}\right)=1$ 、
$(p_{1},\dots,p_{n-1},p_{n})\in\Delta_{n}$ とする。 $q$ , $r\gt 0$ を $p_{n}=q+r$ となるように取るとき $\displaystyle S(p_{1},\dots,p_{n-1},q,r)=S(p_{1},\dots,p_{n-1},p_{n})+p_{n}S\left(\frac{q}{p_{n}},\,\frac{r}{p_{n}}\right)$ が成り立つ。

逆に上記の4条件（これをファデエフの公理系と呼ぶ）を満たす関数 $S$ はシャノンエントロピーに限られる。

証明　 $\implies$ は容易。 $\impliedby$ を帰納法で示す。 $n=2$ の場合に \eqref{eq:definition_Shannon_entropy} を示す。 $p$ , $q\ge 0$ , $r\gt 0$ , $p+q+r=1$ とする。条件１および条件４より \begin{equation*}\begin{split}S(p,q,r) & =S(p,q+r)+(q+r)S\left(\frac{q}{q+r},\frac{r}{q+r}\right)\\ & =S(q,p+r)+(p+r)S\left(\frac{p}{p+r},\frac{r}{p+r}\right)\end{split}\end{equation*}であるが、 $q+r=1-p$ , $p+r=1-q$ に注意すると、関数 $f$ を使って

\begin{equation}f(p)+(1-p)f\left(\frac{q}{1-p}\right)=f(q)+(1-q)f\left(\frac{p}{1-q}\right)\label{eq:proof_criterion_of_Shannon_entropy_1}\end{equation}

と書き直すことが出来る。ここで \eqref{eq:proof_criterion_of_Shannon_entropy_1} の両辺を $q$ に関して 1 から $1-p$ まで積分すれば

\begin{equation}(1-p)f(p)=-(1-p)^{2}\int_{0}^{1}f(t)dt+\int_{0}^{1-p}f(t)dt+p^{2}\int_{0}^{1}\frac{f(t)}{t^{3}}dt.\label{eq:proof_criterion_of_Shannon_entropy_2}\end{equation}

\eqref{eq:proof_criterion_of_Shannon_entropy_2} より $f$ は

$\displaystyle f(p)=-(1-p)\int_{0}^{1}f(t)dt+\frac{1}{1-p}\int_{0}^{1-p}f(t)dt+\frac{p^{2}}{1-p}\int_{0}^{1}\frac{f(t)}{t^{3}}dt$

と書けるから、条件２により $f$ は $0\lt p \lt 1$ で微分可能ある。そこで \eqref{eq:proof_criterion_of_Shannon_entropy_2} の両辺を微分して\begin{equation}(1-p)f'(p)=-(2-p)\int_{0}^{1}f(t)dt+2p\int_{p}^{1}\frac{f(t)}{t^{3}}dt-\frac{f(p)}{p}.\label{eq:proof_criterion_of_Shannon_entropy_3}\end{equation}なお、途中で $f(p)=f(1-p)$ であることを用いた。

\eqref{eq:proof_criterion_of_Shannon_entropy_3} により（ $f$ が微分可能であることを示したやり方と同様にして） $f'$ も $0\lt p\lt 1$ で微分可能であることが示せるから、\eqref{eq:proof_criterion_of_Shannon_entropy_3}を再度、微分して \begin{equation}(1-p)f''(p)=2\int_{0}^{1}f(t)dt+2\int_{p}^{1}\frac{f(t)}{t^{3}}dt-\frac{1-p}{p}f'(p)-\frac{f(p)}{p^{2}}.\label{eq:proof_criterion_of_Shannon_entropy_4}\end{equation}

\eqref{eq:proof_criterion_of_Shannon_entropy_3} を使い \eqref{eq:proof_criterion_of_Shannon_entropy_4} から $f'$ を消去して

$\displaystyle f''(p)=\left(2\int_{0}^{1}f(t)dt\right)\left(\frac{1}{p}+\frac{1}{1-p}\right).$

よって\begin{equation}f(p)=C_{1}(p\log_{e}p+(1-p)\log_{e}(1-p))+C_{2}p+C_{3}\label{eq:proof_criterion_of_Shannon_entropy_5}\end{equation}（ $C_{1}$ 、 $C_{2}$ 、 $C_{3}$ は適当な定数）が成り立つ。

さて \eqref{eq:proof_criterion_of_Shannon_entropy_1} において $p=0$ , $q\gt 0$ とすると $f(0)=0$ が示せる。これと $f(p)=f(1-p)$ であることに注意すると $f(1)=0$ も言える。よって

$C_{2}=C_{3}=0.$

さらに条件３から

$C_{1}=-\log_{2}e.$

よって

$f(p)=-p\log_{2}p-(1-p)\log_{2}(1-p).$

ここで $p_{1}=p$ , $p_{2}=1-p$ と置き直せば

$S(p_{1},p_{2})=-p_{1}\log_{2}p_{1}-p_{2}\log_{2}p_{2},\quad(p_{1},p_{2})\in\Delta_{2}$

となり $n=2$ で \eqref{eq:definition_Shannon_entropy} が成り立つ。

一般の $n$ で \eqref{eq:definition_Shannon_entropy} が成り立つことを仮定して、 $n+1$ の場合にも \eqref{eq:definition_Shannon_entropy} が成り立つことを示す。 $(p_{1},\ldots,p_{n+1})\in\Delta_{n+1}$ とする。条件４より\begin{equation}\begin{split}S(p_{1},\ldots,p_{n-1},p_{n},p_{n+1})=S( & p_{1},\ldots,p_{n-1},p_{n}+p_{n+1})\\ & +(p_{n}+p_{n+1})S\left(\frac{p_{n}}{p_{n}+p_{n+1}},\frac{p_{n+1}}{p_{n}+p_{n+1}}\right)\end{split}\label{eq:proof_criterion_of_Shannon_entropy_6}\end{equation}が成り立つが、帰納法における仮定から

$\displaystyle S(p_{1},\ldots,p_{n-1},p_{n}+p_{n+1})=-\sum_{i=1}^{n-1}p_{i}\log_{2}p_{i}-(p_{n}+p_{n+1})\log_{2}(p_{n}+p_{n+1})$

であり、また

\begin{equation*}\begin{split}(p_{n}+p_{n+1}&)S \left(\frac{p_{n}}{p_{n}+p_{n+1}},\frac{p_{n+1}}{p_{n}+p_{n+1}}\right)\\ & =-p_{n}\log_{2}p_{n}-p_{n+1}\log_{2}p_{n+1}+(p_{n}+p_{n+1})\log_{2}(p_{n}+p_{n+1}) \end{split} \end{equation*}

であるから、\eqref{eq:proof_criterion_of_Shannon_entropy_6} の右辺は

$\displaystyle -\sum_{i=1}^{n-1}p_{i}\log_{2}p_{i}-p_{n}\log_{2}p_{n}-p_{n+1}\log_{2}p_{n+1}$

となり、 $n+1$ においても \eqref{eq:definition_Shannon_entropy} が成り立つ。（証明終）

ファデエフの公理の条件 4 は、確率 $p_{n}$ で発生する事象を、確率 $q$ および $r$ $(p_{n}=q+r)$ で発生する 2 つの事象に分割した時に起こるシャノンエントロピーの変化について述べたものです。もともと 1 つの事象として認識していたものを 2 つの事象として認識できるようになったということは、そこに新しく情報が加わって、事象を峻別できるようになったことを意味しています。平均的な情報量を意味するシャノンエントロピーは、当然、増加する方向で変化が起こるはずです。実際、条件 4 を見てみると、事象の分割によって情報量が $p_{n}S\left(q/p_{n},\,r/p_{n}\right)$ だけ増加していることが分かります。

参考文献

梅垣寿春,情報数理の基礎－関数解析的展開, サイエンス社, 1993