確率不等式
学習アルゴリズムの評価において必要となる不等式を証明します。
補題1(マルコフの不等式) を測度空間、 を可測関数、 とする。このとき次が成り立つ:
証明
\begin{equation*}\begin{split}\int_{X}|f(x)|\mu(dx) & =\int_{|f(x)|\ge a}+\int_{|f(x)|<a} \\ & \ge\int_{|f(x)|\ge a} \\ & \ge a\,\mu(\{x\in X\,|\,|f(x)|\ge a\}). \end{split}\end{equation*}
補題2(ヘフディングの補題) を確率空間とし、 を 、 を満たす確率変数とする。このとき任意の に対して次の不等式が成り立つ:\begin{equation*} E_{P}[\exp(tX)]\le\exp\left(\frac{1}{8}t^{2}(b-a)^{2}\right). \end{equation*}
証明 より となることに注意する。指数関数は凸関数より
であるから
いま
と置くと , であり
さらに
\begin{equation*} \begin{split}\phi(u) & :=\log(p\exp( (1-p)u)+(1-p)\exp(-pu) )\\ & =\log(\exp( (1-p)u)\cdot(p+(1-p)\exp(-u) ) )\\ & =(1-p)u+\log(p+(1-p)\exp(-u)) \end{split} \end{equation*}
と置くと、
\begin{gather*}\phi'(u)=1-p+\frac{-(1-p)\exp(-u)}{p+(1-p)\exp(-u)},\\ \phi''(u)=\frac{p(1-p)\exp(-u)}{(p+(1-p)\exp(-u))^{2}}\end{gather*} である。ここでテイラーの定理より、ある が存在して
と書けるが、相加平均と相乗平均の関係により
であることに注意すると
が成り立つ。よって
補題3(ヘフディングの不等式) を確率空間とし、 を独立同分布な確率変数で を満たすとする。また とする。このとき任意の に対して次の不等式が成り立つ: \begin{gather*} P(S-E_{P}[S]\ge\varepsilon)\le \exp\left(-\frac{2\varepsilon^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}\right),\\ P(S-E_{P}[S]\le-\varepsilon)\le\exp\left(-\frac{2\varepsilon^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}\right). \end{gather*}
証明 任意の に対して\begin{align*} P(S-E_{P}[S]\ge\varepsilon) & =P(\exp(t(S-E_{P}[S]))\ge\exp(t\varepsilon))\\ & \le\exp(-t\varepsilon)E_{P}[\exp(t(S-E_{P}[S]))] & \text{(マルコフの不等式)}\\ \mathrm{} & \le\exp(-t\varepsilon)\prod_{i=1}^{n}E_{P}[\exp(t(X_{i}-E_{P}[X_{i}]))] & \text{(独立性)}\\ \mathrm{} & =\exp(-t\varepsilon)\exp\left({\displaystyle \frac{1}{8}t^{2}\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}\right) & \text{} \end{align*} が成り立つ。
\begin{equation*}\begin{split}\frac{1}{8}t^{2}\sum_{i=1}^{n} & (b_{i}-a_{i})^{2}-t\varepsilon\\ = & \frac{1}{8}\left(\sum_{i=1}^{n}(b_{i}-a_{i})^{2}\right)\left(t-\frac{4\varepsilon}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}\right)^{2}-\frac{2\varepsilon^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}} \end{split} \end{equation*} であるから
同様に