数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

数理統計学 6 十分統計量

今回は十分統計量について説明します。

※本記事は2021/2/1に全面的に加筆修正を行いました。

統計学における主なテーマの一つとして、データを表現する可測空間 (\mathcal{X}, \mathcal{B}) 上の確率分布の族  \mathcal{P} の中からデータに最も適合した分布を選び出すことがあります。以下、この行為を単に分布を推定すると呼びます。

分布の推定においては、データから得られた情報 \mathcal{B} の全てを使う訳ではなく、その中の一部だけを利用することが一般的です。例えば実際の応用の場面では生データ x\in \mathcal{X} そのものではなく、標本平均や標本分散などの、いわゆる統計量 T(x) に加工して推定に利用します。

そこで推定に利用する \mathcal{B} の部分 \sigma-加法族を \mathcal{B}' としましょう。このとき \mathcal{B}'P_1\in \mathcal{P} については沢山の情報を持っているのに、P_2\in \mathcal{P} については殆ど情報を持っていなかった、となると推定に \mathcal{B}' の情報を利用することの妥当性に疑問が生じます。そこで \mathcal{B}' が任意の P\in \mathcal{P} に対して公平であること、別の言い方をすれば \mathcal{B}'P\in \mathcal{P} に依存しないことが求められます。これを数学的に定式化したものが十分性*1です。

定義 (\mathcal{X},\mathcal{B}) を可測空間、\mathcal{P}(\mathcal{X},\mathcal{B}) 上の確率測度の族とする。

  1. .\mathcal{B}'\mathcal{B} の部分 \sigma-加法族とする。このとき \mathcal{B}'\mathcal{P} に関して十分であるとは、任意の A\in \mathcal{B} に対して\begin{equation}E_{P}[ 1_{A} | \mathcal{B}'] = 1_{A} ^{\prime}, \quad P\text{-a.s.},\ \forall P\in \mathcal{P} \notag \end{equation}を満たす \mathcal{B}'-可測関数 1_{A}^{\prime} が存在するときを言う。
  2. (\mathcal{T},\mathcal{M}) を測度空間、T:\mathcal{X}\to\mathcal{T}\mathcal{B}/\mathcal{M}-可測写像とする。T^{-1}(\mathcal{M})\mathcal{P} に関して十分であるとき、T\mathcal{P} に関する十分統計量という。

なお、上記定義において P-a.s. という記号が出てきますが、これは P - almost surely の省略記号で、測度 P に関して測度が0となる集合上を除いて成り立つことを意味します。

定義から次の定理が成り立ちます。

定理 (\mathcal{X}, \mathcal{B}) を可測空間、\mathcal{P}(\mathcal{X}, \mathcal{B}) 上の確率測度の族とし、\mathcal{B} の部分 \sigma-加法族 \mathcal{B}'\mathcal{P} に関して十分とする。\mathcal{B}-可測関数 \varphi が任意の P\in \mathcal{P} に対して \varphi \in L^1(\mathcal{X}, \mathcal{B}, P) となるとき、\mathcal{B}'-可測関数 \varphi ^{\prime} で次を満たすものが存在する:

\begin{equation*}E_{P}[ \varphi | \mathcal{B}'] = \varphi ^{\prime},\quad P\text{-a.s.},\ \forall P\in \mathcal{P} \end{equation*}

証明  \varphi\ge0 とすれば十分である。P\in\mathcal{P} を任意に取る。P-a.e. で \varphi に収束する非負単調非減少な \mathcal{B}-可測単関数列を \{\varphi_{n}\}_{n=1}^{\infty} とする。条件付期待値に関する単調収束定理より適当な P-零集合 N_{P,0} を取れば x\in\mathcal{X}\setminus N_{P,0} に対して

\begin{equation} \lim_{n\to\infty}E_{P}[\varphi_{n}|\mathcal{B}^{\prime}](x)=E_{P}[\varphi|\mathcal{B}^{\prime}](x).\label{eq:thm:sufficient_statistics:MonoCT_for_CE} \end{equation}

\mathcal{B}^{\prime}\mathcal{P} に関して十分であるから、各単関数 \varphi_{n} に対して \mathcal{B}^{\prime}-可測関数 \varphi_{n}^{*}\ge0 が存在し適当な P-零集合 N_{P,n}\in\mathcal{B}^{\prime} を取って \begin{equation} E_{P}[\varphi_{n}|\mathcal{B}^{\prime}](x)=\varphi_{n}^{*}(x),\quad x\in\mathcal{X}\setminus N_{P,n}.\label{eq:thm:sufficient_statistics:CE_of_simple_functions} \end{equation}

\varphi_{n} の単調性より適当な P-零集合 N_{P,n,n+1}\in\mathcal{B}^{\prime} を取って

\begin{equation} E_{P}[\varphi_{n}|\mathcal{B}^{\prime}](x)\le E_{P}[\varphi_{n+1}|\mathcal{B}^{\prime}](x),\quad x\in\mathcal{X}\setminus N_{P,n,n+1}.\label{eq:thm:sufficient_statistics:inequality_of_CE_of_simple_functions} \end{equation}

N_{P,n}^{*}:=N_{P,n}\cup N_{P,n+1}\cup N_{P,n,n+1}\in\mathcal{B}^{\prime} とすると\eqref{eq:thm:sufficient_statistics:MonoCT_for_CE}、\eqref{eq:thm:sufficient_statistics:CE_of_simple_functions}、\eqref{eq:thm:sufficient_statistics:inequality_of_CE_of_simple_functions}より \begin{equation*} \varphi_{n}^{*}(x)\le\varphi_{n+1}^{*}(x),\quad x\in\mathcal{X}\setminus N_{P,n}^{*}. \end{equation*}

N_{n}^{\prime}:=\{x\in\mathcal{X}\,|\,\varphi_{n}^{*}(x)\gt \varphi_{n+1}^{*}(x)\} とすると \varphi_{n}^{*}\varphi_{n+1}^{*} の可測性より N_{n}^{\prime}\in\mathcal{B}^{\prime} であり、また N_{n}^{\prime}\subset N_{P,n}^{*} より P(N_{n}^{\prime})=0 である。よって N^{\prime}:=\bigcup_{n=1}^{\infty}N_{n}^{\prime}N^{\prime}\in\mathcal{B}^{\prime} かつ任意の P\in\mathcal{P} に対して P(N^{\prime})=0 である。

\begin{equation*} \varphi_{n}^{\prime}(x):=\begin{cases} {\displaystyle \varphi_{n}^{*}(x),} & x\in\mathcal{X}\setminus N^{\prime}\\ 0, & x\in N^{\prime} \end{cases} \end{equation*}

とすると \varphi_{n}^{\prime}P\in\mathcal{P} に依らずに定義された \mathcal{B}^{\prime}-可測関数で \begin{equation*} \varphi_{1}^{\prime}(x)\le\cdots\le\varphi_{n}^{\prime}(x)\le\varphi_{n+1}^{\prime}(x)\le\cdots,\quad x\in\mathcal{X} \end{equation*} であるから極限 \lim_{n\to\infty}\varphi_{n}^{\prime}(x) が意味を持ち、\varphi^{\prime}(x):=\lim_{n\to\infty}\varphi_{n}^{\prime}(x)\mathcal{B}^{\prime}-可測関数となる。

N_{P}:=N_{P,0}\cup\left(\bigcup_{n=1}^{\infty}(N_{P,n}\cup N_{P,n,n+1})\right) とすると任意の x\in\mathcal{X}\setminus N_{P} に対して \varphi^{\prime} は \begin{equation*} E_{P}[\varphi|\mathcal{B}^{\prime}](x)=\lim_{n\to\infty}E_{P}[\varphi_{n}|\mathcal{B}^{\prime}](x)=\lim_{n\to\infty}\varphi_{n}^{*}(x)=\lim_{n\to\infty}\varphi_{n}^{\prime}(x)=\varphi^{\prime}(x) \end{equation*} を満たす。(証明終)

次の系は定理より直ちに導かれます。

 (\mathcal{X}, \mathcal{B})(\mathcal{T}, \mathcal{M}) を可測空間、\mathcal{P}(\mathcal{X}, \mathcal{B}) 上の確率測度の族とし、T:\mathcal{X}\to\mathcal{T}\mathcal{P} に関する十分統計量とする。\mathcal{B}-可測関数 \varphi が任意の P\in \mathcal{P} に対して \varphi \in L^1(\mathcal{X}, \mathcal{B}, P) であるとき、T^{-1}(\mathcal{M})-可測関数 \varphi ^{\prime} で次を満たすものが存在する:\begin{equation}E_{P}[ \varphi |T] :=E_P[\varphi | T^{-1}(\mathcal{M})] = \varphi ^{\prime},\quad P\text{-a.s.},\ \forall P\in \mathcal{P} \notag \end{equation}

次回は統計的決定問題を取り上げます。 

*1:これが何故「十分」と呼ばれるのかは次回以降に取り上げる統計的決定問題において説明します。