数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

統計的機械学習と統計的決定理論の関係

前回、学習アルゴリズムの評価方法として期待予測損失を用いる方法を紹介しましたが、この方法は統計的決定理論*1の枠組みで書き表すことが出来ます。

実際、

  1. \mathcal{B}(\mathcal{X}\times\mathcal{Y})^{n} 上の \sigma-加法族とするとき、教師データのなす標本空間 ( (\mathcal{X}\times\mathcal{Y})^{n},\mathcal{B}),
  2. ( (\mathcal{X}\times\mathcal{Y})^{n},\mathcal{B}) 上の確率分布族  \mathcal{P}=\{P_\theta\} _{\theta \in \Theta},
  3. \mathcal{A}\mathcal{Y}^{2} 上の \sigma-加法族とするとき、テストデータのなす決定空間 (\mathcal{Y}^{2},\mathcal{A}),
  4. \ell機械学習における損失関数とするとき、統計的決定論における損失関数 w:\Theta \times\mathcal{Y}^{2}\to\mathbf{R}_{\ge 0}, \begin{equation*}w(\theta, (y,y') ):=\ell(y,y'),\end{equation*}
  5. 決定関数の族
     \Delta:=\left\{\delta_{\hat{h}}:\mathcal{A}\times(\mathcal{X}\times\mathcal{Y})^{n}\to [0,\,1 ]\,\bigg|\,\delta_{\hat{h}}(A,s):=P^{(\hat{h}_{s}(X),Y)}(A)\right\}

を考えると ( (\mathcal{X}\times\mathcal{Y})^{n},\mathcal{B},\mathcal{P}, \Theta , \mathcal{Y}^{2},\mathcal{A},w,\Delta) は統計的決定問題となります。そして、この問題に関するリスク関数 r は\begin{equation*}\begin{split}r(\theta,\delta_{\hat{h}}) & =E_{P_{\theta}} \! \left[\int_{\mathcal{Y}^{2}}w(\theta,(y,y'))\delta_{\hat{h}}(d(y,y'),\cdot)\right]\\ & =\int_{(\mathcal{X}\times\mathcal{Y})^{n}}P_{\theta}(ds)\int_{\mathcal{Y}^{2}}\ell(y,y')P^{(\hat{h}_{s}(X),Y)}(d(y,y'))\\ & =\int_{(\mathcal{X}\times\mathcal{Y})^{n}}P_{\theta}(ds)\int_{\mathcal{X}\times\mathcal{Y}}\ell(\hat{h}_{s}(x),y)P^{(X,Y)}(d(x,y))\\ & =\int_{(\mathcal{X}\times\mathcal{Y})^{n}}R(\hat{h}_{s},\ell)P_{\theta}(ds)\end{split} \end{equation*}となり期待予測損失と一致します。

*1:統計的決定理論については「数理統計学 7 統計的決定理論 (1)」をご参照下さい。