数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

シャノンエントロピーとファデエフの公理系

今回はシャノンエントロピーとその特徴付けであるファデエフの公理系について紹介します。

定義 n 次元単体

\displaystyle \Delta_{n}:=\left\{ (p_{1},\ldots,p_{n})\in\mathbf{R}^{n}\,\Bigg|\,\sum_{i=1}^{n}p_{i}=1,\,p_{i}\ge0\,(i=1,2,\ldots,n)\right\}

上で定義される関数 \begin{equation} S(p_{1},\ldots,p_{n}):=-\sum_{i=1}^{n}p_{i}\log_{2}p_{i},\quad(p_{1},\ldots,p_{n})\in\Delta_{n}\label{eq:definition_Shannon_entropy} \end{equation} をシャノンエントロピー(またはシャノン情報量、平均情報量)と呼ぶ。

 

上記の定義において 0\log_{2}0=0 と規約します。

情報を評価する際、日常的に起こっている事柄よりも滅多に起こることのない事柄に関する情報を高く評価することが一般的です。この「滅多に起こることのない事柄」を「発生確率 p が小さい事象」と言い換えて、情報の価値の大きさを -\log_{2}p で表現したものを情報量と呼んでいます。\eqref{eq:definition_Shannon_entropy} は、発生確率が (p_{1},\ldots,p_{n}) である n 個の事象からなる系全体の平均的な情報量を表現したものになっています。

次の定理はシャノンエントロピーの特徴付けに関するものです。

定理 シャノンエントロピー S は次の性質を満たす。

  1. \sigma\in\mathrm{Aut}(\{1,2,\ldots,n\}) とすると
    S(p_{\sigma(1)},\ldots,p_{\sigma(n)})=S(p_{1},\dots,p_{n}),\quad(p_{1},\dots,p_{n})\in\Delta_{n},
  2. f(p):=S(p,1-p)(=S(1-p,p))0\le p\le1 で連続、
  3. \displaystyle S\left(\frac{1}{2},\frac{1}{2}\right)=1
  4. (p_{1},\dots,p_{n-1},p_{n})\in\Delta_{n} とする。 q, \(r>0\) を p_{n}=q+r となるように取るとき
    \displaystyle S(p_{1},\dots,p_{n-1},q,r)=S(p_{1},\dots,p_{n-1},p_{n})+p_{n}S\left(\frac{q}{p_{n}},\,\frac{r}{p_{n}}\right)
    が成り立つ。

逆に上記の4条件(これをファデエフの公理系と呼ぶ)を満たす関数 S はシャノンエントロピーに限られる。

 証明 \implies は容易。\impliedby帰納法で示す。n=2 の場合に \eqref{eq:definition_Shannon_entropy} を示す。p, q\ge 0,\( r>0\), p+q+r=1 とする。条件1および条件4より \[\begin{split}S(p,q,r) & =S(p,q+r)+(q+r)S\left(\frac{q}{q+r},\frac{r}{q+r}\right)\\ & =S(q,p+r)+(p+r)S\left(\frac{p}{p+r},\frac{r}{p+r}\right)\end{split}\]であるが、q+r=1-p, p+r=1-q に注意すると、関数 f を使って

\begin{equation}f(p)+(1-p)f\left(\frac{q}{1-p}\right)=f(q)+(1-q)f\left(\frac{p}{1-q}\right)\label{eq:proof_criterion_of_Shannon_entropy_1}\end{equation}

と書き直すことが出来る。ここで \eqref{eq:proof_criterion_of_Shannon_entropy_1} の両辺をq に関して 1 から 1-p まで積分すれば

\begin{equation}(1-p)f(p)=-(1-p)^{2}\int_{0}^{1}f(t)dt+\int_{0}^{1-p}f(t)dt+p^{2}\int_{0}^{1}\frac{f(t)}{t^{3}}dt.\label{eq:proof_criterion_of_Shannon_entropy_2}\end{equation}

\eqref{eq:proof_criterion_of_Shannon_entropy_2} より f

\displaystyle f(p)=-(1-p)\int_{0}^{1}f(t)dt+\frac{1}{1-p}\int_{0}^{1-p}f(t)dt+\frac{p^{2}}{1-p}\int_{0}^{1}\frac{f(t)}{t^{3}}dt

と書けるから、条件2により f は \(0<p<1\) で微分可能ある。そこで \eqref{eq:proof_criterion_of_Shannon_entropy_2} の両辺を微分して\begin{equation}(1-p)f'(p)=-(2-p)\int_{0}^{1}f(t)dt+2p\int_{p}^{1}\frac{f(t)}{t^{3}}dt-\frac{f(p)}{p}.\label{eq:proof_criterion_of_Shannon_entropy_3}\end{equation}なお、途中で f(p)=f(1-p) であることを用いた。

\eqref{eq:proof_criterion_of_Shannon_entropy_3} により(f微分可能であることを示したやり方と同様にして)f' も \(0<p<1\) で微分可能であることが示せるから、\eqref{eq:proof_criterion_of_Shannon_entropy_3}を再度、微分して \begin{equation}(1-p)f''(p)=2\int_{0}^{1}f(t)dt+2\int_{p}^{1}\frac{f(t)}{t^{3}}dt-\frac{1-p}{p}f'(p)-\frac{f(p)}{p^{2}}.\label{eq:proof_criterion_of_Shannon_entropy_4}\end{equation}

\eqref{eq:proof_criterion_of_Shannon_entropy_3} を使い \eqref{eq:proof_criterion_of_Shannon_entropy_4} から f' を消去して

\displaystyle f''(p)=\left(2\int_{0}^{1}f(t)dt\right)\left(\frac{1}{p}+\frac{1}{1-p}\right).

よって\begin{equation}f(p)=C_{1}(p\log_{e}p+(1-p)\log_{e}(1-p))+C_{2}p+C_{3}\label{eq:proof_criterion_of_Shannon_entropy_5}\end{equation}(C_{1}C_{2}C_{3} は適当な定数)が成り立つ。

さて \eqref{eq:proof_criterion_of_Shannon_entropy_1} において p=0, \(q>0\) とすると f(0)=0 が示せる。これと f(p)=f(1-p) であることに注意すると f(1)=0 も言える。よって

C_{2}=C_{3}=0.

さらに条件3から

C_{1}=-\log_{2}e.

よって

f(p)=-p\log_{2}p-(1-p)\log_{2}(1-p).

ここで p_{1}=p, p_{2}=1-p と置き直せば

S(p_{1},p_{2})=-p_{1}\log_{2}p_{1}-p_{2}\log_{2}p_{2},\quad(p_{1},p_{2})\in\Delta_{2}

となり n=2 で \eqref{eq:definition_Shannon_entropy} が成り立つ。

一般の n で \eqref{eq:definition_Shannon_entropy} が成り立つことを仮定して、n+1 の場合にも \eqref{eq:definition_Shannon_entropy} が成り立つことを示す。(p_{1},\ldots,p_{n+1})\in\Delta_{n+1} とする。条件4より\begin{equation}\begin{split}S(p_{1},\ldots,p_{n-1},p_{n},p_{n+1})=S( & p_{1},\ldots,p_{n-1},p_{n}+p_{n+1})\\ & +(p_{n}+p_{n+1})S\left(\frac{p_{n}}{p_{n}+p_{n+1}},\frac{p_{n+1}}{p_{n}+p_{n+1}}\right)\end{split}\label{eq:proof_criterion_of_Shannon_entropy_6}\end{equation}が成り立つが、帰納法における仮定から

\displaystyle S(p_{1},\ldots,p_{n-1},p_{n}+p_{n+1})=-\sum_{i=1}^{n-1}p_{i}\log_{2}p_{i}-(p_{n}+p_{n+1})\log_{2}(p_{n}+p_{n+1})

であり、また

\[\begin{split}(p_{n}+p_{n+1}&)S \left(\frac{p_{n}}{p_{n}+p_{n+1}},\frac{p_{n+1}}{p_{n}+p_{n+1}}\right)\\ & =-p_{n}\log_{2}p_{n}-p_{n+1}\log_{2}p_{n+1}+(p_{n}+p_{n+1})\log_{2}(p_{n}+p_{n+1}) \end{split} \]

であるから、\eqref{eq:proof_criterion_of_Shannon_entropy_6} の右辺は

\displaystyle -\sum_{i=1}^{n-1}p_{i}\log_{2}p_{i}-p_{n}\log_{2}p_{n}-p_{n+1}\log_{2}p_{n+1}

となり、n+1 においても \eqref{eq:definition_Shannon_entropy} が成り立つ。(証明終)

 

ファデエフの公理の条件 4 は、確率 p_{n} で発生する事象を、確率 q および r (p_{n}=q+r) で発生する 2 つの事象に分割した時に起こるシャノンエントロピーの変化について述べたものです。もともと 1 つの事象として認識していたものを 2 つの事象として認識できるようになったということは、そこに新しく情報が加わって、事象を峻別できるようになったことを意味しています。平均的な情報量を意味するシャノンエントロピーは、当然、増加する方向で変化が起こるはずです。実際、条件 4 を見てみると、事象の分割によって情報量が p_{n}S\left(q/p_{n},\,r/p_{n}\right) だけ増加していることが分かります。

 

参考文献