数理統計学１１　ｐ値 - 数学、ときどき統計、ところによりＩＴ

今回は非確率化検定における仮説の採否と有意水準の関係、いわゆるｐ値について考えます。

記号は前回において定義したものを使用します。

一般に有意水準 $\alpha$ が大きければ大きいほど仮説は棄却されやすくなります。実際、 $\alpha ' \lt \alpha$ ならば $\Phi (\alpha ', \Theta_0) \subset \Phi (\alpha, \Theta_0)$ が成り立つので、たとえ観測値 $x\in \mathcal{X}$ が任意の $\varphi \in \Phi (\alpha ', \Theta_0)$ に対して $x\not \in \varphi ^{-1}(\{ 1\})$ となるようなものであったとしても $x \in \varphi ^{-1}(\{ 1\})$ を満たす $\varphi \in \Phi (\alpha, \Theta_0) \setminus \Phi (\alpha ', \Theta_0)$ が存在するかもしれません。一方で有意水準は第１種の誤りのリスクの大きさを表す指標ですから、出来る限り小さい事が望まれます。そこで与えられた観測値 $x \in \mathcal{X}$ に基づいて仮説を棄却する場合に、有意水準をどこまで小さくすることが可能なのか、という疑問が自然に生じます。これを踏まえ以下を定義します。

定義（ｐ値）　 $(\mathcal{X}, \mathcal{B})$ を標本空間とし、 $x\in \mathcal{X}$ を観測によって得られた観測値とする。また $\mathcal{P}=\{P_{\theta}\}_{\theta \in \Theta}$ を $(\mathcal{X}, \mathcal{B})$ 上の確率分布族、 $\Theta_0$ と $\Theta_1$ を $\Theta = \Theta_0\cup \Theta_1$ 、 $\Theta_0\cap \Theta_1= \emptyset$ を満たす集合とし、観測値は $\theta \in \Theta_0$ に従うという仮説を立てる。さらに $\Phi$ を非確率化検定全体の（部分）集合とする。このとき与えられた観測値 $x\in \mathcal{X}$ に対して仮説を棄却する検定 $\varphi$ が存在するような有意水準 $\alpha$ の極小値をｐ値と呼ぶ：

$p \text{-value} (x,\Phi, \Theta_0):=\displaystyle \inf \left\{ \alpha \ \big| \ \exists \ \varphi \in \Phi (\alpha, \Theta_0) \ \ \text{s.t.} \ \ x\in \varphi ^{-1}(\{ 1\})\right\}.\$

分析者が設定した有意水準 $\alpha$ に対して $p\text{-value}(x,\Phi, \Theta_0)$ $\lt \alpha$ となった場合、ｐ値の定義により $x\in \varphi ^{-1}(\{ 1\})$ となる $\varphi \in \Phi (\alpha, \Theta_0)$ が存在するので、この検定関数 $\varphi$ を使って検定を実施すれば帰無仮説は棄却されることになります。

以上よりｐ値を求めることが出来れば、有意水準とｐ値を比較するという簡単な手続きで仮説の採否を判断することが出来ます。

そこでｐ値を具体的に計算してみたいと思います。

例　 $T:\mathcal{X}\to \mathbf{R}$ を統計量とする。このとき $\Phi:=\{1_{T^{-1}([t, \infty))} \ | \ t\in \mathbf{R}\}$ を統計量 $T$ に関する片側検定と呼ぶことにする。観測値は $P_{\theta} \in \mathcal{P}$ ( $\theta \in \Theta_0$ ) に従うという仮説の下で\begin{align*} p \text{-val} & \text{ue} (x, \Phi, \Theta_0) \\ & = \inf \left\{ \alpha \ \bigg| \ \exists \ 1_{T^{-1}([t, \infty))} \in \Phi (\alpha, \Theta_0) \ \ \text{s.t.} \ \ x\in 1 _{T^{-1}([t, \infty))}^{-1} (\{ 1\})\right\} \\ & = \inf \left\{ \alpha \ \bigg| \ \exists \ t \in \mathbf{R} \ \ \text{s.t.} \ \ x \in T^{-1}([t, \infty)),\ \sup _{\theta \in \Theta_0} P_{\theta}\left(T^{-1}([t, \infty))\right) \le \alpha \right\} \\ & = \inf \left\{ \alpha \ \bigg| \ \exists \ t \in (-\infty,\ T(x)] \ \ \text{s.t.} \ \sup _{\theta \in \Theta_0} P_{\theta}\circ T^{-1}([t, \infty)) \le \alpha \right\} \end{align*}である。ここで

\begin{align*} & \alpha ' \not \in \left\{ \alpha \ \bigg| \ \exists \ t \in (-\infty,\ T(x)] \ \ \text{s.t.} \ \sup _{\theta \in \Theta_0} P_{\theta}\circ T^{-1}([t, \infty)) \le \alpha \right\} \\ & \overset{\text{iff}}{\Longleftrightarrow} \ \forall \ t \in (-\infty,\ T(x)] \ に対し \sup _{\theta \in \Theta_0} P_{\theta}\circ T^{-1}([t, \infty)) > \alpha ' \\ & \overset{\text{iff}}{\Longleftrightarrow} \ \sup _{\theta \in \Theta_0} P_{\theta}\circ T^{-1}([T(x), \infty)) > \alpha ' \end{align*}であるから

\begin{align*} & \left\{\alpha \ \bigg| \ \exists \ t \in (-\infty,\ T(x)] \ \ \text{s.t.} \ \sup _{\theta \in \Theta_0} P_{\theta} \circ T^{-1}([t, \infty)) \le \alpha \right\} \\ & = \left\{ \alpha \ \bigg| \ \sup _{\theta \in \Theta_0} P_{\theta} \circ T^{-1}([T(x), \infty)) > \alpha \right\} ^{c} \\ & = \left[ \sup _{\theta \in \Theta_0} P_{\theta} \circ T^{-1}([T(x), \infty)), \ \infty\right).\end{align*}

（ただし集合 $A$ に対して $A^{c}$ は $A$ の補集合を表す。）よって

$\displaystyle p \text{-value} (x, \Phi, \Theta_0)= \sup _{\theta \in \Theta_0} P_{\theta} \circ T^{-1}([T(x), \infty))$

が成り立つ。

p 値について、しばしば「p 値は実際に得られた観測値か、それ以上の極端な観測値が得られる確率である」と説明されることがありますが、上記の例は、ある具体的な状況の下では p 値がそのような量として書き表せることを示しています。しかしそれは p 値の定義でも、意味しているものでも、まして意図しているものでも無いことに留意する必要があります。飽く迄、p 値は「与えられた観測値に基づいて帰無仮説を棄却する場合に、どこまで第 1 種の誤りのリスクを小さくすることが可能なのか、その極小値のこと」を表しています。

p 値を使って意思決定をする場合、 p 値が想定した有意水準よりも小さければ、第 1 種の誤りを犯す可能性が少ないと判断して帰無仮説を棄却することになります。結果として対立仮説を採用することになるのですが、この際、対立仮説が実は誤りであるかもしれないリスク（第 2 種の誤り）については全く考慮していません。従ってより妥当な意思決定する為には第 2 種の誤りについても考慮する必要があります。

さて１１回にわたり数理統計学について紹介をしてきましたが、区切りが良いこともあり数理統計学の不定期連載は今回をもって終了とします。もちろん数理統計学について今後記事を書かないという訳ではありません。フォローしなければならないテーマはネイマン・ピアソンの基本補題、区間推定、ベイズ推定、情報量基準等々、挙げればまだまだ沢山あります。これらのテーマについて随時取り上げていきたいと思います。