読者です 読者をやめる 読者になる 読者になる

数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

数理統計学 6 十分統計量

今回は十分統計量について説明します。

統計学における主な目的の一つは、データを表現する可測空間 (\mathcal{X}, \mathcal{B}) 上の確率分布の族  \mathcal{P} の中からデータに最も適合した分布を選び出すことです。以下、この行為を単に分布を推定すると呼びます。

分布の推定においては、データから得られた情報 \mathcal{B} の全てを使う訳ではなく、その中の一部だけを利用することが一般的です。例えば実際の応用の場面では生データ x\in \mathcal{X} そのものではなく、標本平均や標本分散などの、いわゆる統計量 T(x) に加工して推定に利用します。

そこで推定に利用する \mathcal{B} の部分 \sigma-加法族を \mathcal{B}' としましょう。このとき \mathcal{B}'P_1\in \mathcal{P} については沢山の情報を持っているのに、P_2\in \mathcal{P} については殆ど情報を持っていなかった、となると推定に \mathcal{B}' の情報を利用することの妥当性に疑問が生じます。そこで \mathcal{B}' が任意の P\in \mathcal{P} に対して公平であること、別の言い方をすれば \mathcal{B}'P\in \mathcal{P} に依存しないことが求められます。これを数学的に定式化したものが十分性*1です。

定義 (\mathcal{X},\mathcal{B}) を可測空間、\mathcal{P}(\mathcal{X},\mathcal{B}) 上の確率測度の族とする。

  1. .\mathcal{B}'\mathcal{B} の部分 \sigma-加法族とする。このとき \mathcal{B}'\mathcal{P} に関して十分であるとは、任意の A\in \mathcal{B}' に対して\begin{equation}E_{P}[ \chi_{A} | \mathcal{B}'] = \chi_{A} ^{*}, \quad P\text{-a.s.},\ \forall P\in \mathcal{P} \notag \end{equation}を満たす \mathcal{B}'-可測関数 \chi_{A}^{*} が存在するときを言う。
  2. (\mathcal{T},\mathcal{M}) を測度空間、T:\mathcal{X}\to\mathcal{T}\mathcal{B}/\mathcal{M}-可測写像とする。T^{-1}(\mathcal{M})\mathcal{P} に関して十分であるとき、T\mathcal{P} に関する十分統計量という。

 

なお、上記定義において P-a.s. という記号が出てきますが、これは P - almost surely の省略記号で、測度 P に関して測度が0となる集合上を除いて成り立つことを意味します。

定義1から次の定理が成り立ちます。

定理 (\mathcal{X}, \mathcal{B}) を可測空間、\mathcal{P}(\mathcal{X}, \mathcal{B}) 上の確率測度の族とし、\mathcal{B} の部分 \sigma-加法族 \mathcal{B}'\mathcal{P} に関して十分とする。\mathcal{B}-可測関数 \varphi が任意の P\in \mathcal{P} に対して \varphi \in L^1(\mathcal{X}, \mathcal{B}, P) となるとき、\mathcal{B}'-可測関数 \varphi ^{*} で次を満たすものが存在する:\begin{equation}E_{P}[ \varphi | \mathcal{B}'] = \varphi ^{*},\quad P\text{-a.s.},\ \forall P\in \mathcal{P}\notag \end{equation}

証明 \varphi \ge 0 とすれば十分である。このとき \varphi _{n} \uparrow \varphi となる \mathcal{B}-可測な非負単関数列 \{ \varphi _{n}\} _{n=1}^{\infty} が取れるから、条件付期待値に対する単調収束定理*2より次が成り立つ:\begin{equation} \lim _{n\to \infty} E_P[\varphi _{n}| \mathcal{B}'] = E_P[\varphi| \mathcal{B}'],\quad P\text{-a.s.},\ \forall P\in \mathcal{P} \label{proof_monotone_convergence_for_CE}\end{equation}

一方、\mathcal{B}'\mathcal{P} に関し十分であるから、各単関数 \varphi _{n} に対して \mathcal{B}'-可測関数 \varphi_{n}^{*} \ge 0 が存在して\begin{equation} E[\varphi _{n}| \mathcal{B}'] = \varphi_{n}^{*},\quad P\text{-a.s.},\ \forall P\in \mathcal{P} \label{proof_varphi_n^*_limit_of_CE}\end{equation}また式 \eqref{proof_varphi_n^*_limit_of_CE} より \varphi_{n}^{*} \in L^1(\mathcal{X}, \mathcal{B}', P) であるから P( (\varphi_{n}^{*})^{-1}(\{\infty \}))=0 が成り立つ。いま

\begin{equation} \mathcal{X}_{\infty} := \bigcup _{n=1}^{\infty} \ (\varphi_{n}^{*})^{-1}(\{\infty \})\notag \end{equation}

と置くと測度の基本的性質より

\begin{equation} P(\mathcal{X}_{\infty}) = P\left( \bigcup _{n=1}^{\infty} \ (\varphi_{n}^{*})^{-1}(\{\infty \}) \right) \le \sum _{n=1}^{\infty}\ P\left( (\varphi_{n}^{*})^{-1}(\{\infty \})\right) = 0\notag \end{equation}が成り立つ。ここで\begin{equation} \varphi ^{*}(x):=\begin{cases} \displaystyle \lim _{n\to \infty} \varphi _{n}^{*} (x), & x\in \mathcal{X} \setminus \mathcal{X}_{\infty} \\ 0, & x\in \mathcal{X}_{\infty} \end{cases} \notag \end{equation}とすると \varphi ^{*} は非負の \mathcal{B}'-可測*3な関数となる。式 \eqref{proof_monotone_convergence_for_CE} および \eqref{proof_varphi_n^*_limit_of_CE} より\begin{equation} E_P[\varphi| \mathcal{B}'] = \lim _{n\to \infty} E_P[\varphi _{n}| \mathcal{B}'] =  \lim _{n\to \infty}  \varphi _{n}^{*} =  \varphi ^{*},\quad P\text{-a.s.},\ \forall P\in \mathcal{P} \quad \square \notag \end{equation}

 

次の系は定理1より直ちに導かれます。

 (\mathcal{X}, \mathcal{B})(\mathcal{T}, \mathcal{M}) を可測空間、\mathcal{P}(\mathcal{X}, \mathcal{B}) 上の確率測度の族とし、T:\mathcal{X}\to\mathcal{T}\mathcal{P} に関する十分統計量とする。\mathcal{B}-可測関数 \varphi が任意の P\in \mathcal{P} に対して \varphi \in L^1(\mathcal{X}, \mathcal{B}, P) であるとき、T^{-1}(\mathcal{M})-可測関数 \varphi ^{*} で次を満たすものが存在する:\begin{equation}E_{P}[ \varphi |T] :=E_P[\varphi | T^{-1}(\mathcal{M})] = \varphi ^{*},\quad P\text{-a.s.},\ \forall P\in \mathcal{P} \notag \end{equation}

 

次回は統計的決定問題を取り上げます。 

*1:これが何故「十分」と呼ばれるのかは次回以降に取り上げる統計的決定問題において説明します。

*2:条件付期待値に対する単調収束定理は事実として認めることにします。

*3:可測関数列の極限が可測関数となることは事実として認めることにします。