数学、ときどき統計、ところによりIT

理論と実践の狭間で漂流する数学趣味人の記録

数理統計学 11 p値

今回は非確率化検定における仮説の採否と有意水準の関係、いわゆるp値について考えます。

記号は前回で定義したものを使用します。

一般に有意水準 \(\alpha\) が大きければ大きいほど仮説を棄却しやすくなります。実際、\(\alpha ' < \alpha\) ならば \(\Phi (\alpha ', \mathcal{P}_0) \subset \Phi (\alpha, \mathcal{P}_0)\) が成り立つので、たとえ観測値 \(x\in \mathcal{X}\) が、任意の \(\varphi \in \Phi (\alpha ', \mathcal{P}_0) \) に対して \(x\not \in \varphi ^{-1}(\{ 1\}) \) となるようなものであったとしても、\(\alpha '\) と比べて十分大きな \(\alpha\) を取れば \(x \in \varphi ^{-1}(\{ 1\})\) を満たす \(\varphi \in \Phi (\alpha, \mathcal{P}_0) \setminus \Phi (\alpha ', \mathcal{P}_0) \) が存在するかもしれません。一方で有意水準は第1種の誤りのリスクの大きさを表す指標ですから、出来る限り小さい事が望まれます。そこで与えられた観測値 \(x \in \mathcal{X}\) に基づいて仮説を棄却する場合に、有意水準をどこまで小さくすることが可能なのか、という疑問が自然に生じます。これを踏まえ以下を定義します。

定義(p値) \( (\mathcal{X}, \mathcal{B})\) を標本空間とし、\(x\in \mathcal{X}\) を観測によって得られた観測値とする。また \(\mathcal{P}\)、\(\mathcal{P}_0\)、\(\mathcal{P}_1\) を \( (\mathcal{X}, \mathcal{B})\) 上の確率分布族で \(\mathcal{P} = \mathcal{P}_0\cup \mathcal{P}_1\)、\(\mathcal{P}_0\cap \mathcal{P}_1= \emptyset\) を満たすとし、観測値は \(\mathcal{P}_0\) に従うという仮説を立てる。さらに \(\Phi\) を非確率化検定全体の(部分)集合とする。このとき与えられた観測値 \(x\in \mathcal{X}\) に対して仮説を棄却する検定 \(\varphi\) が存在するような有意水準 \(\alpha \) の極小値をp値と呼ぶ:

 p \text{-value} (x,\Phi, \mathcal{P}_0):=\displaystyle \inf \left\{ \alpha \ \big| \ \exists \ \varphi \in \Phi (\alpha, \mathcal{P}_0) \ \ \text{s.t.} \ \ x\in \varphi ^{-1}(\{ 1\})\right\}.\

 

分析者が設定した有意水準 \(\alpha\) に対して p\text{-value}(x,\Phi, \mathcal{P}_0) \( < \alpha\) となった場合、p値の定義により \(x\in \varphi ^{-1}(\{ 1\})\) となる \(\varphi \in \Phi (\alpha, \mathcal{P}_0)\) が存在する、つまり有意水準 \(\alpha\) で観測値は \(\mathcal{P}_0\) に従うという仮説は棄却されます。

以上よりp値を求めることが出来れば、有意水準とp値を比較するという簡単な手続きで仮説の採否を判断できることが分かります。

そこでp値を具体的に計算してみたいと思います。

 \(T:\mathcal{X}\to \mathbf{R}\) を統計量とする。このとき \(\Phi:=\{\chi _{T^{-1}([t, \infty))} \ | \ t\in \mathbf{R}\} \) を統計量 \(T\) に関する片側検定と呼ぶことにする。観測値は \(\mathcal{P}_0\) に従うという仮説の下で\begin{align*} p \text{-val} & \text{ue} (x, \Phi, \mathcal{P}_0) \\ & = \inf \left\{ \alpha \ \bigg| \ \exists \ \chi _{T^{-1}([t, \infty))} \in \Phi (\alpha, \mathcal{P}_0) \ \ \text{s.t.} \ \ x\in \chi _{T^{-1}([t, \infty))}^{-1} (\{ 1\})\right\} \\ & = \inf \left\{ \alpha \ \bigg| \ \exists \ t \in \mathbf{R} \ \ \text{s.t.} \ \ x \in T^{-1}([t, \infty)),\ \sup _{P\in \mathcal{P}_0} P\left(T^{-1}([t, \infty))\right) \le \alpha \right\} \\ & = \inf \left\{ \alpha \ \bigg| \ \exists \ t \in (-\infty,\ T(x)] \ \ \text{s.t.} \ \sup _{P\in \mathcal{P}_0} P\circ T^{-1}([t, \infty)) \le \alpha \right\} \end{align*}である。ここで

\begin{align*} & \alpha ' \not \in \left\{ \alpha \ \bigg| \ \exists \ t \in (-\infty,\ T(x)] \ \ \text{s.t.} \ \sup _{P\in \mathcal{P}_0} P\circ T^{-1}([t, \infty)) \le \alpha \right\} \\ & \overset{\text{iff}}{\Longleftrightarrow} \ \forall \ t \in (-\infty,\ T(x)] \ に対し \sup _{P\in \mathcal{P}_0} P\circ T^{-1}([t, \infty)) > \alpha ' \\ & \overset{\text{iff}}{\Longleftrightarrow} \ \sup _{P\in \mathcal{P}_0} P\circ T^{-1}([T(x), \infty)) > \alpha ' \end{align*}であるから

\begin{align*} & \left\{\alpha \ \bigg| \ \exists \ t \in (-\infty,\ T(x)] \ \ \text{s.t.} \ \sup _{P\in \mathcal{P}_0} P\circ T^{-1}([t, \infty)) \le \alpha \right\} \\ & = \left\{ \alpha \ \bigg| \ \sup _{P\in \mathcal{P}_0} P\circ T^{-1}([T(x), \infty)) > \alpha \right\} ^{c} \\ & = \left[ \sup _{P\in \mathcal{P}_0} P\circ T^{-1}([T(x), \infty)), \ \infty\right).\end{align*}

(ただし集合 \(A\) に対して \(A^{c}\) は \(A\) の補集合を表す。)よって

\displaystyle p \text{-value} (x, \Phi, \mathcal{P}_0)= \sup _{P\in \mathcal{P}_0} P\circ T^{-1}([T(x), \infty))

が成り立つ。

 

p値は「実際に得られた観測値かそれ以上の極端な観測値が得られる確率である」という言い方がされることがありますが、上記の例は片側検定の場合にその主張の正確な形を数式を使って表現したものになっています。しかしそれは特定の状況下でのみ成り立つ事実であって、p値の定義そのものではないことに注意する必要があります。

これに限らずp値については解釈らしきものが様々語られることがありますが、あくまでp値は「与えられた観測値に基づいて仮説を棄却する場合に、どこまで第1種の誤りのリスクを小さくすることが可能なのか、その極小値のこと」であり、それ以上でもそれ以下でもありません。

p値が小さいということは第1種の誤りを犯すリスクを小さくすることが出来る、つまり仮説が正しいのに誤って棄却してしまうリスクを小さくすることが出来ることを表しており、その意味では当然好ましい事ではあります。

それではp値が十分小さい場合に、設定する有意水準をp値と同じ水準にすることが可能なのかと言えば、一般には出来ません。なぜならば、分析者は第1種の誤りだけでなく第2種の誤りにも注意しなければならないからです。第1種の誤りよりも第2種の誤りの方が深刻であり、そして第1種の誤りと第2種の誤りのリスクの大きさは互いにトレードオフとなる傾向があることに注意をすれば、第1種の誤りのリスクはある程度は許容せざるを得ないという結論になります。

 

さて11回にわたり数理統計学について紹介をしてきましたが、区切りが良いこともあり数理統計学の不定期連載は今回をもって終了とします。もちろん数理統計学について今後記事を書かないという訳ではありません。フォローしなければならないテーマはネイマン・ピアソンの基本補題区間推定、ベイズ推定、情報量基準等々、挙げればまだまだ沢山あります。これらのテーマについて随時取り上げていきたいと思います。