仮説検定におけるサンプルサイズの決め方（２） - 数学、ときどき統計、ところによりＩＴ

今回は母分散が未知の場合の母平均の検定におけるサンプルサイズについて考えます。

この場合、母平均の従う分布は $t$ 分布 $t(n)$ で求めるべきサンプルサイズ $n$ が分布のパラメータとして組み込まれている上に、検出力の計算には（ $t$ 分布 $t(n)$ ではなく）非心度 $\lambda$ の非心 $t$ 分布 $t(n,\lambda)$ を扱わなければならない点が分散既知の場合との違いとなっています。そこで前回と同様に議論を進める為に $t$ 分布 $t(n)$ や非心 $t$ 分布 $t(n,\lambda)$ の正規分布近似を考えます。

定理１（フィッシャーの近似法）　 $U\sim\chi^{2}(n)$ のとき

$Z:=\sqrt{2U}-\sqrt{2n-1}$

は $N(0,1)$ に近似的に従う。

定理２　 $t\in\mathbf{R}$ 、 $\lambda\in\mathbf{R}$ に対して次の近似式が成り立つ：

\begin{equation} P_{t(n,\lambda)}( (-\infty,t])\approx P_{N(0,1)}\left(\left(-\infty,\left(t\sqrt{1-\frac{1}{2n}}- \lambda\right)\Bigg/\sqrt{1+\frac{t^{2}}{2n}}\,\right]\right). \label{eq:noncentric_t-dist_approx_norm_dist}\end{equation}

証明　 $X$ 、 $U$ を互いに独立な確率変数で $X\sim N(\lambda,1)$ 、 $U\sim\chi^{2} (n)$ とすると $X/\sqrt{U/n}\sim t(n,\lambda)$ である。定理１より近似的に

$\displaystyle \sqrt{\frac{U}{n}}\sim N\left(\sqrt{1-\frac{1}{2n}},\,\frac{1}{2n}\right)$

が成り立つから（近似的に）

$X-t\sqrt{\frac{U}{n}}\sim N\left(\lambda-t\sqrt{1-\frac{1}{2n}},\,1+\frac{t^{2}}{2n}\right).$

よって\begin{equation*}\begin{split}P_{t(n,\lambda)}( (-\infty,t]) & =P(X/\sqrt{U/n}\le t)\\ & =P(X-t\sqrt{U/n}\le0)\\ & \approx P_{N\left(\lambda-t\sqrt{1-\frac{1}{2n}},\,1+\frac{t^{2}}{2n}\right)}( (-\infty,0])\\ & =P_{N(0,1)}\left(\left(-\infty,\left(t\sqrt{1-\frac{1}{2n}}-\lambda\right)\Bigg/\sqrt{1+\frac{t^ {2}}{2n}}\,\right]\right).\end{split}\end{equation*}（証明終）

定理３　 $(\Omega,\mathcal{F},P)$ を確率空間、 $X_{i}:\Omega\to\mathbf{R}$ （ $i=1,2,\ldots,n$ ）を母平均 $\mu$ 、母分散 $\sigma^{2}$ の正規分布に従う、互いに独立で等分散な確率変数とする。（母分散 $\sigma^{2}$ の値は未知とする。）また $\varepsilon_{0}\gt 0$ 、 $\Theta_{0}=\{\mu_{0}\}$ 、 $\Theta_{1}=\mathbf{R}\backslash\{\mu_{0}\}$ 、 $0\lt \alpha\lt 0.5$ 、 $0.5\lt \beta\lt 1$ とする。統計量

$\displaystyle T_{\mu_{0}}(X):=\frac{\sqrt{n}\,(\overline{X}-\mu_{0})}{\sqrt{V(X)}},\quad X=(X_{1},\ldots,X_{n})$

（ $V(X)$ は不偏分散）に関する両側検定

$\varphi:=1_{T_{\mu_{0}}^{-1}( (-\infty,-t] \cup [t,\infty) )}:\mathbf{R}^{n}\to\{0,1\}$

を帰無仮説 $\mu=\mu_{0}$ の下で行うとき、サンプルサイズ $n$ を

$\displaystyle 2n-3-\max\left\{ z\left(\frac{\alpha}{2}\right)^{2},\,z(\beta)^{2}\right\} \ge1$

かつ

\begin{equation}n\gt \frac{1}{\varepsilon_{0}^2}\left(w_{1}z\left(\frac{\alpha}{2}\right)-w_{2}z(\beta)\right)^{2}\label {eq:sample_size:t-test}\end{equation}を満たすように取れば、棄却限界値 $t$ が

\begin{equation}t_{n-1}\left(\frac{\alpha}{2}\right)\approx w_{1}w_{3}z\left(\frac{\alpha}{2}\right)\le t \lt w_{3}\left (\sqrt{n}\,\varepsilon_{0}+w_{2}z(\beta)\right) \label{eq:sample_size:t-test:critical}\end{equation} の範囲にある両側検定 $\varphi$ の有意水準は $\alpha$ であり、かつ

$|\mu_{1}-\mu_{0}| \ge \varepsilon_{0} \sigma$

を満たす $\forall\mu_{1}\in\Theta_{1}$ に対する検出力 $\beta_{\varphi}(\mu_{1})$ は $\beta$ よりも大きい。ただし \begin{gather*}w_{1}:=w_{1}(n,\alpha,\beta):=\frac{2n-3-z(\beta)^{2}}{\sqrt{(2n-3)\left(2n-3-z\left(\frac{\alpha} {2}\right)^{2}\right)}},\\w_{2}:=w_{2}(n,\beta):=\sqrt{\frac{(2+\varepsilon_{0}^{2})n-3-z(\beta)^{2}}{2n-3}},\\w_{3}:=w_{3}(n,\beta):=\frac{\sqrt{(2n-2)(2n-3)}}{2n-3-z(\beta)^{2}}.\end{gather*}

証明　式 \eqref{eq:sample_size:t-test} より

$w_{1}z\left(\frac{\alpha}{2}\right)\lt \sqrt{n}\,\varepsilon_{0}+w_{2}z(\beta).$

両辺に $w_{3}$ を掛けて

$w_{1}w_{3}z\left(\frac{\alpha}{2}\right)\lt w_{3}\left(\sqrt{n}\,\varepsilon_{0}+w_{2}z(\beta)\right)$

となるから \eqref{eq:sample_size:t-test:critical} を満たす $t \gt 0$ を取ることが出来る。このとき両側検定 $\varphi$ の有意水準は $\alpha$ であり、検出力は $\beta$ であることを確認する。

有意水準について確認する。帰無仮説 $\mu=\mu_{0}$ の下で $T_{\mu_{0}}(X)$ は $t (n-1)$ に従うから\begin{equation*}\begin{split}E_{P^{X}}[\varphi] & =P^{T_{\mu_{0}}(X)}\left( (-\infty,-t]\cup[t,\infty)\right)\\ & =P_{t(n-1)}( (-\infty,-t]\cup[t,\infty) )\\ & =2P_{t(n-1)}([t,\infty) )\end{split}\end{equation*}となる。

$\displaystyle t\ge w_{1}w_{3}z\left(\frac{\alpha}{2}\right)=z\left(\frac{\alpha}{2}\right)\sqrt{\frac{2n-2}{2n-3-z \left(\frac{\alpha}{2}\right)^{2}}}$

を $z(\alpha/2)$ について整理すると

$\displaystyle z\left(\frac{\alpha}{2}\right)\le t\sqrt{\frac{2n-3}{2n-2+t^{2}}}.$

\eqref{eq:noncentric_t-dist_approx_norm_dist}と併せれば \begin{equation*}\begin{split}P_{t(n-1)}([t,\infty) ) & \approx P_{N(0,1)}\left(\left[t\sqrt{\frac{2n-3}{2n-2+t^{2}}}, \,\infty\right)\right)\\ & \le P_{N(0,1)}\left(\left[z\left(\frac{\alpha}{2}\right),\,\infty\right)\right)=\frac{\alpha}{2}.\end{split}\end{equation*}

特に $t=t_{n-1}(\alpha/2)$ とすれば次式を得る：

$\displaystyle t_{n-1}\left(\frac{\alpha}{2}\right)\approx w_{1}w_{3}z\left(\frac{\alpha}{2}\right) .\$

検出力について確認する。 $|\mu_{1}-\mu_{0}| \ge \varepsilon_{0} \sigma$ を満たす $\mu_{1}\in\Theta_{1}$ に対して $\varepsilon:=(\mu_{1}-\mu_{0})/\sigma$ と置く。対立仮説 $X_{i}\sim N(\mu_{1},\sigma^{2})$ の下、

$\displaystyle \frac{\sqrt{n}\,(\overline{X}-\mu_{0})}{\sigma}=\frac{\sqrt{n}\,(\overline{X}-\mu_{1})}{\sigma}+\sqrt {n}\varepsilon\sim N(\sqrt{n}\varepsilon,1)$ $\displaystyle \frac{(n-1)V(X)^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\left(\frac{X_{i}-\mu_{1}}{\sigma}-\frac{\overline{X}- \mu_{1}}{\sigma}\right)^{2}\sim\chi^{2}(n-1)$

かつ $(\overline{X}-\mu_{1})/\sigma$ と $(n-1)V(X)^{2}/\sigma^{2}$ は互いに独立であるから $T_{\mu_{0}}(X)$ は非心 $t$ 分布 $t(n-1,\sqrt{n}\varepsilon)$ に従う。よって検定関数 $\varphi$ に関する検出力は

$\beta_{\varphi}(\mu_{1})=P_{t(n-1,\sqrt{n}\varepsilon)}( (-\infty,-t])+P_{t(n-1,\sqrt{n}\varepsilon)} ([t,\infty) ).$

以降、 $\varepsilon\gt 0$ としても一般性は失わない。 $\varepsilon\lt 0$ の場合は $\varepsilon$ を $(-\varepsilon)$ に置き換えて議論を行えば良い。 $\varepsilon \ge \varepsilon_ {0}$ と \eqref{eq:noncentric_t-dist_approx_norm_dist}より\begin{equation*}\begin{split}P_{t(n-1,\sqrt{n}\varepsilon)}([t,\infty) ) & \approx P_{N(0,1)}\left(\left[\frac{tc_{n- 1}-\sqrt{n}\varepsilon}{\sqrt{1+t^{2}(1-c_{n-1}^{2})}},\,\infty\right)\right)\\ & \gt P_{N(0,1)}\left(\left[\frac{tc_{n-1}-\sqrt{n}\varepsilon_{0}}{\sqrt{1+t^{2}(1-c_{n-1}^{2})}},\, \infty\right)\right),\end{split}\end{equation*}ただし $c_{n}:=\sqrt{1-(2n)^{-1}}$ とした。ここで \eqref{eq:sample_size:t-test:critical} から\begin{equation}\frac{tc_{n-1}-\sqrt{n}\varepsilon_{0}}{\sqrt{1+t^{2}(1-c_{n-1}^{2})}}\lt z(\beta)\lt 0\label{eq:sample_size:t-test:estimation_by_power}\end{equation}であることが分かる。実際、

$t\lt w_{3}\left(\sqrt{n}\,\varepsilon_{0}+w_{2}z(\beta)\right)$

は \eqref{eq:sample_size:t-test:estimation_by_power} を $t$ について整理して得られる 2 次不等式

$(c_{n-1}^{2}-z(\beta)(1-c_{n-1}^{2}) )t^{2}-2\sqrt{n}\varepsilon_{0}c_{n-1}t+n\varepsilon_{0}^{2}-z (\beta)^{2}\gt 0$

を解いて得られる。よって\eqref{eq:sample_size:t-test:critical} を満たす $t$ に対して

$P_{t(n-1,\sqrt{n}\varepsilon)}([t,\infty) )\gt P_{N(0,1)}([z(\beta),\infty) )=\beta$

となり $\beta_{\varphi}(\mu_{1})\gt \beta$ となる。（証明終）

注意　単にサンプルサイズを計算するだけならば未知の母分散 $\sigma^{2}$ は不要でですが、 $\mu_{1}\in\Theta_{1}$ もしくは $\mu_{1}-\mu_{0}$ の水準を問題にしたい場合は未知の母分散を必要とします。この場合、母分散の値をあらかじめ何らかの方法で想定しておく必要があります。

有意水準 $\alpha$ 、検出力 $\beta$ 、効果量 $\varepsilon _{0}$ を具体的に与えてサンプルサイズを求めてみましょう。下表は Excel のゴールシーク機能を使い

$\displaystyle \varDelta:=x-\left(\frac{w_{1}(x,\alpha, \beta )z\left(\frac{\alpha}{2}\right)-w_{2}(x,\beta)z(\beta)}{\varepsilon_{0}}\right)^ {2}$

が 0 になる $x$ を探索した結果です。表中の $x$ に対して $n=\min\{n' \in \mathbf{N} \,|\,x\le n'\}$ とすればサンプルサイズ $n$ が得られます。

表：平均値の検定（分散未知）におけるサンプルサイズ
$\alpha$	$\beta$	$\varepsilon _{0}$	$x$	$\varDelta$
0.01	0.80	0.20	295.31	3.57e-05
0.01	0.80	0.50	50.14	-5.09e-04
0.01	0.80	0.80	21.81	1.09e-04
0.01	0.90	0.20	375.32	-6.17e-04
0.01	0.90	0.50	62.92	8.78e-06
0.01	0.90	0.80	26.76	-2.87e-04
0.05	0.80	0.20	198.16	1.90e-05
0.05	0.80	0.50	33.41	4.67e-06
0.05	0.80	0.80	14.41	2.20e-05
0.05	0.90	0.20	264.62	-2.01e-05
0.05	0.90	0.50	44.02	3.15e-04
0.05	0.90	0.80	18.51	-2.97e-05

なお永田 [1] において

$\displaystyle n\approx\left(\frac{z\left(\frac{\alpha}{2}\right)-z(\beta)}{\varepsilon_{0}}\right)^{2}+\frac{1}{2}z \left(\frac{\alpha}{2}\right)^{2}$

という近似式が提案されており、上表とほぼ同じ値になることが確認できます。

参考文献

[1] 永田靖, サンプルサイズの決め方, 朝倉書店, 2003