7.2: one way ANOVA
たとえば、次のことを考える。

$(\sharp_1)$ $x_{11}, x_{12}, x_{13},..., x_{1n_1}$ は正規分布$N(\mu_1, \sigma)$から得られたデータ
$(\sharp_2)$ $x_{21}, x_{22}, x_{23},..., x_{2n_2}$ は正規分布$N(\mu_2, \sigma)$から得られたデータ
$(\sharp_3)$ $x_{31}, x_{32}, x_{33},..., x_{3n_3}$ は正規分布$N(\mu_3, \sigma)$から得られたデータ
と仮定しよう。 このとき、
  • データ$(\sharp_1)-(\sharp_3)$ から、 「$ \mu_1 = \mu_2 = \mu_3 $」 の可能性は少ない
    と結論するには、 如何なる議論が可能か?
を考えたい。 これが、 一元配置分散分析 で以下に説明する。


各 $i=1,2, \cdots , a$, に対して, 自然数 $n_i$ が定まっているとしよう. また, ${{n}}=\sum_{i=1}^a n_i$ としよう. 前節の多少の一般化として, 次のような並行同時正規観測量 ${\mathsf O}_G^{{{n}}} = (X(\equiv {\mathbb R}^{{{n}}}), {\mathcal B}_{\mathbb R}^{{{n}}}, {{{G}}^{{{n}}}} )$ ( in $L^\infty (\Omega ( \equiv ({\mathbb R}^a \times {\mathbb R}_+))$ ) を以下のように考えよう.

\begin{align} & [{{{G}}}^{{{n}}} ( \widehat{\Xi}) ] ({}\omega{}) = \frac{1}{({{\sqrt{2 \pi }\sigma{}}})^{{{n}}}} \underset{\widehat{\Xi} }{\int \cdots \int} \exp[{}- \frac{\sum_{i=1}^a \sum_{k=1}^{n_i} ({}{}{x_{ik}} - {}{\mu}_i {})^2 } {2 \sigma^2} {}] {{{\times}}}_{i=1}^a {{{\times}}}_{k=1}^{n_i} d {}{x_{ik}} \tag{7.14} \\ & \qquad ( \forall \omega =(\mu_1, \mu_2, \ldots, \mu_a, \sigma) \in \Omega = {\mathbb R}^a \times {\mathbb R}_+ , \widehat{\Xi} \in {\mathcal B}_{\mathbb R}^{{{n}}}) \nonumber \end{align} したがって,次のような並行同時正規測定 \begin{align*} {\mathsf M}_{L^\infty ({\mathbb R}^a \times {\mathbb R}_+ )} ({\mathsf O}_G^{{{n}}} = (X(\equiv {\mathbb R}^{{{n}}}), {\mathcal B}_{\mathbb R}^{{{n}}}, {{{G}}^{{{n}}}} ), S_{[(\mu=(\mu_1, \mu_2, \cdots, \mu_a ), \sigma )]} ) \end{align*} を考える. 次のように,$a_i$を定める. \begin{align} \alpha_i= \mu_i - \frac{\sum_{i=1}^a \mu_i }{a} \qquad (\forall i=1,2, \ldots, a ) \tag{7.15} \end{align} として, \begin{align*} \Theta = {\mathbb R}^a \end{align*} そして, システム量$\pi : \Omega \to \Theta $ を次のように定める. \begin{align} \Omega = {\mathbb R}^a \times {\mathbb R}_+ \ni \omega =(\mu_1, \mu_2, \ldots, \mu_a, \sigma) \mapsto \pi(\omega) = (\alpha_1, \alpha_2, \ldots, \alpha_a) \in \Theta = {\mathbb R}^a \tag{7.16} \end{align} 帰無仮説 $H_N ( \subseteq \Theta = {\mathbb R}^a)$ を次のように考える. \begin{align} H_N & = \{ (\alpha_1, \alpha_2, \ldots, \alpha_a) \in \Theta = {\mathbb R}^a \;:\; \alpha_1=\alpha_2= \ldots= \alpha_a= \alpha \} \nonumber \\ & = \{ ( \overbrace{0, 0, \ldots, 0}^{a} ) \} \tag{7.17} \end{align} ここで,次の同値性に注意しよう. \begin{align*} "\mu_1=\mu_2=\ldots=\mu_a" \Leftrightarrow "\alpha_1=\alpha_2=\ldots=\alpha_a=0" \Leftrightarrow "\mbox{(7.17)}" \end{align*}

我々の問題は,以下の通りである.

問題7.2 [一元配置分散分析]

$n=\sum_{i=1}^a n_i$とする. 並行同時正規測定 $ {\mathsf M}_{L^\infty ({\mathbb R}^a \times {\mathbb R}_+ )} ({\mathsf O}_G^{{{n}}} = (X(\equiv {\mathbb R}^{{{n}}}),$ $ {\mathcal B}_{\mathbb R}^{{{n}}}, $ ${{{G}}^{{{n}}}} ),$ $ S_{[(\mu=(\mu_1, \mu_2, \cdots, \mu_a ), \sigma )]} ) $ を考えよう.ここで, \begin{align*} \mu_1= \mu_2= \cdots= \mu_a \end{align*} と仮定しよう.すなわち, \begin{align*} \pi(\mu_1, \mu_2, \cdots, \mu_a )=(0,0, \cdots, 0) \end{align*} を仮定する. つまり 帰無仮説を$H_N=\{ (0,0, \cdots, 0) \}$ $(\subseteq \Theta= {\mathbb R} ) )$ と仮定する.$0 < \alpha \ll 1$とする. このとき,次を満たす${\widehat R}_{{H_N}}^{\alpha; \Theta}( \subseteq \Theta)$で,「出来るだけ大きいもの(しかも,$\sigma$に依存しないもの)」を見つけよ

$(B_1):$ $ {\mathsf M}_{L^\infty ({\mathbb R}^a \times {\mathbb R}_+ )} ({\mathsf O}_G^{{{n}}} = (X(\equiv {\mathbb R}^{{{n}}}), {\mathcal B}_{\mathbb R}^{{{n}}}, {{{G}}^{{{n}}}} ), S_{[(\mu=(\mu_1, \mu_2, \cdots, \mu_a ), \sigma )]} ) $ の測定値$x(\in{\mathbb R}^n )$が, \begin{align*} E(x) \in {\widehat R}_{{H_N}}^{\alpha; \Theta} \end{align*} を満たす確率は,$\alpha$以下である.

解答.

また,$\Theta={\mathbb R}^a$内に重み付きユークリッドノルムを次のように定める. \begin{align*} & \| \theta^{(1)}- \theta^{(2)} \|_\Theta = \sqrt{ \sum_{i=1}^a n_i \Big(\theta_{i}^{(1)} - \theta_{i}^{(2)} \Big)^2 } \\ & \qquad (\forall \theta^{(\ell)} =( \theta_1^{(\ell)}, \theta_2^{(\ell)}, \ldots, \theta_a^{(\ell)} ) \in {\mathbb R}^{a}, \; \ell=1,2 ) \nonumber \end{align*}

また, \begin{align} &X={\mathbb R}^{{{n}}} \ni x = ((x_{ik})_{ k=1,2, \ldots, n_i})_{i=1,2,\ldots,a} \nonumber \\ & x_{i \bullet } =\frac{\sum_{k=1}^{n_i} x_{ik}}{n_i}, \qquad x_{ \bullet \bullet } =\frac{\sum_{i=1}^a \sum_{k=1}^{n_i}x_{ik}}{{{n_i}}}, \quad \tag{7.18} \end{align}

としておこう. フィッシャーの最尤法の動機づけにより, $\overline{\sigma}(x) (= \sqrt{ \frac{{\overline{SS}}(x)}{n} } )$を次のように定義・計算する.

各$x \in X={\mathbb R}^{{{n}}}$に対して, \begin{align} & {\overline{SS}}(x) = {\overline{SS}}(((x_{ik})_{\; k=1,2, \ldots, {n_i} })_{i=1,2, \ldots, a\;} ) \nonumber \\ = & \sum_{i=1}^a \sum_{k=1}^{n_i} (x_{ik} - x_{i \bullet })^2 \nonumber \\ = & \sum_{i=1}^a \sum_{k=1}^{n_i} (x_{ik} - \frac{\sum_{k=1}^{n_i} x_{i k}}{n_i})^2 \nonumber \\ = & \sum_{i=1}^a \sum_{k=1}^{n_i} ((x_{ik}-\mu_i) - \frac{\sum_{k=1}^{n_i} ( x_{i k}-\mu_i)}{n_i})^2 \qquad \nonumber \\ = & {\overline{SS}}(((x_{ik}- \mu_{i})_{\; k=1,2, \ldots, {n_i} })_{i=1,2, \ldots, a\;} ) \tag{7.19} \end{align}

各$x \in X = {\mathbb R}^{{{n}}}$に対して, 半距離 $d_\Theta^x$ in $\Theta$ を次のように定める. \begin{align} & d_\Theta^x (\theta^{(1)}, \theta^{(2)}) = \frac{\|\theta^{(1)}- \theta^{(2)} \|_\Theta}{ \sqrt{{\overline{SS}}(x) } } \qquad (\forall \theta^{(1)}, \theta^{(2)} \in \Theta ) ). \tag{7.20} \end{align}

更に,推定量 $E: X(={\mathbb R}^{{{n}}}) \to \Theta(={\mathbb R}^{a} )$ を次のように定める. \begin{align} E(x) = & E( (x_{ik})_{i=1,2,\ldots,a, k=1,2, \ldots, n} ) \nonumber \\ = & \Big( \frac{\sum_{k=1}^{n_i} x_{1k}}{n} - \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} x_{ik}}{{{n}}} , \frac{\sum_{k=1}^{n_i} x_{2k}}{n} - \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} x_{ik}}{{{n}}}, \ldots, \frac{\sum_{k=1}^{n_i} x_{ak}}{n} - \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} x_{ik}}{{{n}}} \Big) \nonumber \\ = & \Big( \frac{\sum_{k=1}^{n_i} x_{ik}}{n} - \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} x_{ik}}{{{n}}} \Big)_{i=1,2, \ldots, a } = (x_{i \bullet } - x_{\bullet \bullet })_{i=1,2, \ldots, a } \tag{7.21} \end{align} よって,次を得る. \begin{align} & \| E(x) - \pi (\omega )\|^2_\Theta \nonumber \\ = & || \Big( \frac{\sum_{k=1}^{n_i} x_{ik}}{n} - \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} x_{ik}}{{{n}}} \Big)_{i=1,2, \ldots, a } - ( \alpha_i )_{i=1,2, \ldots, a } ||_\Theta^2 \nonumber \\ = & || \Big( \frac{\sum_{k=1}^{n_i} x_{ik}}{n} - \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} x_{ik}}{{{n}}} - (\mu_i - \frac{\sum_{i=1}^a \mu_i }{a}) \Big)_{i=1,2, \ldots, a } ||_\Theta^2 \nonumber \end{align} 帰無仮説$H_N$ (i.e., $\mu_i-\frac{\sum_{k=1}^a\mu_i}{a}=\alpha_i =0 (i=1,2,\ldots, a )$) に注意して, \begin{align} = & || \Big( \frac{\sum_{k=1}^{n_i} x_{ik}}{n} - \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} x_{ik}}{{{n}}} \Big)_{i=1,2, \ldots, a } ||_\Theta^2 = \sum_{i=1}^a n_i (x_{i \bullet } - x_{\bullet \bullet })^2 \tag{7.22} \end{align} したがって, 任意の $ \omega=((\mu_{ik})_{i=12,\ldots,a, \;k=1,2, \ldots, n }, \sigma ) ({}\in \Omega= {\mathbb R}^{{{n}}} \times {\mathbb R}_+ )$に対して, 正数 $\eta^\alpha_{\omega}$ $({}> 0)$ を次のように定める. \begin{align} \eta^\alpha_{\omega} = \inf \{ \eta > 0: [G^{{{n}}}({}E^{-1} ({} {{\rm Ball}^c_{d_\Theta^{x}}}(\pi(\omega) ; \eta{}))](\omega ) \ge \alpha \} \tag{7.23} \end{align} ここに \begin{align} {\rm Ball}^c_{d_\Theta^{x}}(\pi(\omega) ; \eta{}) =\{ \theta \in \Theta \;:\; d_\Theta^{x} ( \pi(\omega ) , \theta ) > \eta \} \tag{7.24} \end{align} 帰無仮説$H_N$ (i.e., $\mu_i-\frac{\sum_{k=1}^a\mu_i}{a}=\alpha_i =0 (i=1,2,\ldots, a )$) を確認して, $\eta^\alpha_{\omega}$を計算していこう. \begin{align} & E^{-1}({{\rm Ball}^c_{d_\Theta^{x} }}(\pi(\omega) ; \eta )) =\{ x \in X = {\mathbb R}^{{{n}}} \;:\; d_\Theta^x (E(x), \pi(\omega )) > \eta \} \nonumber \\ = & \{ x \in X = {\mathbb R}^{{{n}}} \;:\; \frac{ \| E(x)- \pi(\omega) \|^2_\Theta }{{{\overline{SS}}(x) }} = \frac{ \sum_{i=1}^a n_i ( x_{i \bullet } - x_{\bullet \bullet } )^2}{ \sum_{i=1}^a \sum_{k=1}^{n_i} (x_{ik} - x_{i \bullet })^2 } > \eta^2 \} \tag{7.25} \end{align}

$\pi( \omega ) (= (\alpha_1, \alpha_2, \ldots, \alpha_a) )\in H_N (=\{0,0, \ldots, 0)\})$を満たす 任意の$\omega =(\mu_1, \mu_2, \ldots, \mu_a, \sigma) \in \Omega={\mathbb R}^{a} \times {\mathbb R}_+$に対して,

\begin{align} & [{{{G}}}^{{{n}}} ( E^{-1}({{\rm Ball}^c_{d_\Theta^{x} }}(\pi(\omega) ; \eta )) ) ({}\omega{}) \nonumber \\ = & \frac{1}{({{\sqrt{2 \pi }\sigma{}}})^{{{n}}}} \underset{ \frac{ \sum_{i=1}^a n_i ( x_{i \bullet } - x_{\bullet \bullet } )^2}{ \sum_{i=1}^a \sum_{k=1}^{n_i} (x_{ik} - x_{i \bullet })^2 } > \eta^2 }{\int \cdots \int} \exp[{}- \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} ({}{}{x_{ik}} - {}{\mu_i} {})^2 } {2 \sigma^2} {}] {{{\times}}}_{i=1}^a {{{\times}}}_{k=1}^{n_i} d {}{x_{ik}} \nonumber \\ = & \frac{1}{({{\sqrt{2 \pi }{}}})^{{{n}}}} \underset{ \frac{ (\sum_{i=1}^a n_i( x_{i \bullet } - x_{\bullet \bullet} )^2 /(a-1)}{ (\sum_{i=1}^a \sum_{k=1}^{n_i} (x_{ik} - x_{i \bullet })^2)/({{n}}-a) } > \frac{\eta^2 ({{n}}-a) }{ (a-1)} } {\int \cdots \int} \exp[{}- \frac{ \sum_{i=1}^a \sum_{k=1}^{n_i} ({}{}{x_{ik}} {})^2 } {2 } {}] {{{\times}}}_{i=1}^a {{{\times}}}_{k=1}^{n_i} d {}{x_{ik}} \end{align}

$(B_2):$ ここで,ガウス積分の公式7.8(B)($\S$7.4)によって,次を得る,
\begin{align} = & \int^{\infty}_{ \frac{\eta^2 ({{n}}-a) }{ (a-1)} } p_{(a-1,{{n}}-a) }^F(t) dt = \alpha \;\; (\mbox{ e.g., $\alpha$=0.05}) \tag{7.26} \end{align}

ここで, $p_{(a-1,{{n}}-a) }^F$ は 自由度$p_{(a-1,{{n}}-a) }^F$の$F$-分布の確率密度関数とする. したがって,次の方程式を解けばよい.

\begin{align} \frac{\eta^2 ({{n}}-a) }{ (a-1)} ={F_{n-a, \alpha}^{a-1} } (=\mbox{"$\alpha$-点"}) \tag{7.27} \end{align} これを解いて, \begin{align} (\eta^\alpha_{\omega})^2 = {F_{n-a, \alpha}^{a-1} } (a-1)/(n-a) \tag{7.28} \end{align}

よって, 次の棄却域${\widehat R}_{\widehat{x}}^{\alpha; \Theta}$ (or, ${\widehat R}_{\widehat{x}}^{\alpha; X}$; $({}\alpha{})$-棄却域 of $H_N =\{(0.0. \ldots, 0)\}( \subseteq \Theta= {\mathbb R}^a)$ ) を結論できる

\begin{align} {\widehat R}_{{H_N}}^{\alpha; \Theta} & = \bigcap_{\omega =((\mu_i)_{i=1}^a, \sigma ) \in \Omega (={\mathbb R}^a \times {\mathbb R}_+ ) \mbox{ such that } \pi(\omega)= (\mu)_{i=1}^a \in {H_N}=\{(0,0,\ldots,0)\}} \{ E({x}) (\in \Theta) : d_\Theta^{x} ({}E({x}), \pi(\omega)) \ge \eta^\alpha_{\omega } \} \nonumber \\ & = \{ E({x}) (\in \Theta) : \frac{ (\sum_{i=1}^a n_i ( x_{i \bullet } - x_{\bullet \bullet } )^2) /(a-1)}{ (\sum_{i=1}^a \sum_{k=1}^{a_i} (x_{ik} - x_{i \bullet })^2))/({{n}}-a) } \ge {F_{n-a, \alpha}^{a-1} } \} \tag{7.29} \end{align} さらに, \begin{align} {\widehat R}_{\widehat{x}}^{\alpha; X} = E^{-1}({\widehat R}_{H_N}^{\alpha;\Theta}) = \{ x \in X \;:\; { \frac{ (\sum_{i=1}^a n_i ( x_{i \bullet } - x_{\bullet \bullet } )^2 )/(a-1)}{ (\sum_{i=1}^a \sum_{k=1}^{n_i} (x_{ik} - x_{i \bullet })^2)/({{n}}-a) } \ge {F_{n-a, \alpha}^{a-1} } } \} \tag{7.30} \end{align} となる.
$\fbox{注釈7.2}$(i):上の議論で,多少なりとも数学を使った部分(計算した部分)があるとしたら, (B$_2$)のガウス積分の公式だけであることに注意しよう.