Section 1.2 分散分析とは

このページは、令和２年４月２４日に一部更新しました。

1.2 節　(１変量) 分散分析の広がり

ここで、狭義の分散分析すなわち１変量分散分析に戻ると、狭義の意味における分散分析にも大きな広がりがある。この広がりを一瞥する前に、分散分析、ひいては実験計画法の基本的原則を示しておこう。つぎに示すのは、Fisher の提唱した実験計画法の３原則である。

1. 反復
同一水準には２回以上の標本 (の繰り返し、repetition) が必要である。
2.無作為化
標本の各水準への割り付けは、無作為化 (randomize) しなければならない。
3.局所管理
標本全体の均一化を達成することが難しい時に、それにかかわる副次的な因子に対しては複数の水準を設定し、その水準内では局所的に均一化を達成させるとよい (これは、通常ブロック因子を導入することにより達成される)。

さて、最も単純な完全無作為化法 (completely randomized design) の場合で上の問題を説明しよう。この場合、３原則のうち最初の２つのみが満たされる。以下に、Kirk (1982) の用法に従って、以降この計画法を CR-p デザインと書くことにする。CR-p デザインでは、水準の数 p は２以上である。研究者は、従属変数に影響すると考えかつ最も重要であると考える１つの因子を取り上げ、従属変数に関して均質な無限母集団からの独立で無作為なN 個の標本のそれぞれを、設定した p 水準のいずれかに無作為に割り付ける必要がある。

つぎに、因子数が２つ以上の実験は、多因子実験 (multi factor experiment) と呼ばれるが、とりわけ取り上げた因子の水準のすべての組み合わせを１回以上実験するものは、一般に要因実験 (factorial experiment) と呼ばれる。もし、 CR-p デザインを２つ以上の因子の場合に拡張するとすれば、そのような実験は完全無作為化要因デザイン (completely randomized factorial design) と呼ばれる。とりわけ、因子が２つの場合は、２処理(因子)完全無作為化要因デザイン (completely randomized factorial design with two treatments) と呼ばれる。Kirk (1982) に従えば、これは CRF-pq デザインと表記される。

例えば、２処理 (因子) 完全無作為化要因デザインの２因子の水準がそれぞれ p 及び q であるとする。この時、２因子の処理のすべての組み合わせの数すなわちセルの総数は、pq となる。このデザインでは、われわれはこれらすべてのセルに対してそれぞれ等しい被験者数r を考えるとすれば、これらのセルに対してpqr 人の被験者を完全に無作為に割り付けなければならない。

因子数がいくつであれ、完全無作為化デザインでは、従属変数に影響しなおかつ研究者が関心のある要因間に重要度の強弱はない。これに対して、それらの間に強弱があり、因子のなかに当面の主要な関心がない因子、すなわち局外変数 (より、正確には、nuisance parameter 局外母数という) が存在する場合には、Fisher の実験計画法の３原則のうちの最後の局所管理の原則を取り入れて、局外変数の幾つかの水準内では局所的な均一化を計るとよい。

そのためには、あらかじめ無作為抽出された被験者を局外因子の複数の水準ごとに仕分けしておき、つぎに局外因子のそれぞれの水準ごとに複数の被験者を主要な関心のある因子の各水準に無作為に割り付ける。このようなデザインは、乱塊法 (randomized block design) と呼ばれる。 Kirk (1982) に従えば、このデザインは、RB-p デザインと表記される。

　RB-p デザインでは、通常主要な因子と局外因子の交互作用はない、もしくは無視できるという前提がある。この前提が疑われる場合は、局外因子（ブロック因子）の水準ごとに、主要因子の各水準に対して同数の被験者を割り付ける。このデザインは {\gt 一般化乱塊法} (generalized randomized design) と呼ばれ、GRB-p デザインと表記される。一般化乱塊法デザインは、形式上は CRF-pq デザインと同一であるが、完全無作為化要因デザインの場合と異なり、被験者は局所管理されたグループごとに主要な要因の各水準に無作為に割り付けられる点に注意が必要である。

RB デザインで主要な因子が２つ以上の場合は、一般に乱塊要因デザイン (randomized block factorial design) と呼ばれる。例えば、それが２つのデザインは２処理(因子)乱塊要因デザイン (randomized block design with two treatments, 又は a two-treatment randomized block design) と呼ばれ、 Kirk 流には RBF-pq のように表記される。ここで、p 及び q は、各主要因子の水準数である。

RBF-pq デザインでは、あらかじめ無作為抽出された被験者を局外因子の複数の水準ごとに仕分けしておき、つぎに局外因子のそれぞれの水準ごとに複数の被験者を主要な関心のある因子の組み合わせによりできるpq 個の水準に無作為に割り付ける必要がある。

RB-p デザインも RBF-pq デザインも共に、局外因子は１つであった。これを２つ以上考える１つの方法が、分割区画デザイン (split-plot design) である。その最も単純なケースが、Kirk (1982) に従えば、SPF-p.q デザインである。このデザインは、 RB-q デザインが p 個あるケースと考えることもできる。

SPF-p.q デザインでは、原則として、従属変数に影響する２つの主要因子と２つの局外因子を考える。また、主要２因子には研究者の関心に強弱があるものとする。ここで、それらをA因子、B因子とし、研究者は A因子の方の効果にはあまり関心がなく、B因子の効果及びA因子とB因子のからみの効果に関心が強いとする。

このような場合、われわれはまず(原則的には無限母集団からの無作為標本としての)被験者を、第１局外因子の水準による p 個のブロックに仕分けし、さらにそれぞれのブロックを、第２の局外因子の水準により r 個のブロックに仕分けし、それらの１つ１つは q 人の被験者から成るとする。

SPF-p.q デザインでは、この時まずA因子の p 個の水準に、第１局外因子の水準から成る p 個のブロックを無作為に割り付ける。つぎに、A因子のそれぞれの水準ごとに、第２局外因子の r 水準の各々に仕分けられたq 人の被験者を、 B 因子のq 個の水準に無作為に割り付ける。

例えば、 A因子はミラーリエル錯視の斜線分の長さのp 水準から成り、 B因子は斜線分の角度のq 水準から成り、第１局外因子は被験者の知能レベルの p 水準から成り、第２局外因子は当錯視の練習回数のr レベルから成るとする。この時、われわれはまずA因子である斜線分の長さのp 水準に、第１局外因子である被験者の知能レベルp 水準を無作為に割り付ける。つぎに、 A因子のそれぞれの水準に割り付けられた qr 人の被験者を、第２の局外因子である練習回数のr レベルごと、q 人の被験者をB因子すなわち斜線分の角度のq 水準に無作為に割り付ける。

SPF-p.q デザインでは、いつもこのように２つの局外因子が全く異質なものである必要はない。例えば、農場における施肥の効果を見る実験では、例えば農場をまず大きな区画にわけ、さらにそれぞれを隣接した下位区画に細分する。そして、そこでの大区画を第１局外因子、下位区画を第２局外因子と見做すことがある (奥野ら、1975)。

いずれにせよ、このようにして得られる SPF-p.q デザインでは、A因子の効果と第１局外因子の効果は、完全に交絡している (completely confounded)、従って両者は識別不可能である。しかし、一方では SPF-p.q デザインでは、一般に効果に関する検定での検出力は、B 因子及び A 因子と B 因子のからみについては、A 因子のそれに比べて高いことがわかっている。

実験計画法では、うえのようなオーソドックスなデザインのみならず、実験の日時を短縮したり、少ない被験者で結論を得るために上述のデザインを変形することも多い。例えば、CRF-pq デザインではセルの総数はpq 個に、CRF-pqr デザインではセルの総数は pqr になる。セルの総数が多くなると、実験の費用や時間がかかること以外に実験条件の均一化が一般に困難になる場合が出てくる。これらの難点を克服するための１つの方法が因子数３の場合のラテン方格法 (Latin square) である。

ラテン方格法では、３因子の水準がすべて同じでなければならないという制約があるが、それを p とすれば、CRF-ppp デザインでは p³ 個のセルが必要なのに対して、この方法では、それを p² 個、すなわち 1/p で済ませてしまうことができる。Table 1.1 は３つの因子 A、B、C がすべて４水準から成る場合のラテン方格の１つの例である。セルの数は、CRF-444 デザインの場合、4³=64 必要なのに対して、その４分の１の 16 個で済ませることができる。

表 1.1 ラテン方格法の例
因子・水準	B₁	B₂	B₃	B₄
C₁	A₂	A₁	A₄	A₃
C₂	A₃	A₄	A₁	A₂
C₃	A₄	A₂	A₃	A₁
C₄	A₁	A₃	A₂	A₄

ラテン方格法では、一般に３因子の水準数をすべて p として、つぎの制約を必要とする：

各因子について、p個の水準がそれぞれp回づつ同一回数出現すること。
１つの因子水準を固定する時、他の２つの因子水準のすべての水準がそれぞれ１回づつ出現すること。

ラテン方格法とよく似た方法に、グレコラテン方格法 (Graeco-Latin square) がある。この方法は、CRF-pppp デザインの場合、p⁴ 個のセルを必要とするのに対して、p² 個のセルで済ませてしまうことができる。

ラテン方格法は、主要な１つの因子に対して２つのブロック因子を構成するもう１つの方法とみることもできる。例えば、上の表で因子 A は主要因子、B 及び C 因子は共にブロック因子と見れば、ブロック因子構成のための１つの方法とみれる。同様に、グレコ・ラテン方格法は、主要な１つの因子に対して３つのブロック因子を構成する方法ともみれる (奥野ら、1975)。

教育や心理学の分野では、これ以外にも複数の水準もしくは処理を、同一の被験者が繰り返すようなデザインがよく用いられる。このようなデザインは、反復測度デザイン (repeated measures design) とか反復測定デザイン (repeated measurement design) と呼ばれる。反復測度デザインは、上述の方法のうち、ブロック因子を用いるデザインで、ブロック因子の各水準に各被験者を充てることによって、実現する。例えば、通常の RB-p デザインでは、被験者は主要因子の水準数を p、ブロック因子の水準を k とすれば、pk 人必要なのに対して、反復測度 RB-p デザインでは、ブロック因子の各水準には各被験者が対応するので、k 人で済むことになる。

反復測度デザインは、しかしながら、一方では同一被験者が異なる水準に反応することにより、場合によっては F- 検定量もしくは t- 検定量にゆがみを生じさせるという弱点も持つ。

実験計画法の中には、上述のような比較的単純なデザイン以外に、例えば釣り合い型不完備デザイン (Balanced Incomplete Block Design)、ユーデン方格法 (Youden square)、一部釣り合い型不完備デザイン (Partially Balanced Incomplete Block Design) など、複雑なデザインも考案されている (奥野ら、1975)。

これまで、実験計画法の広がりをいろいろなデザインを紹介することにより議論してきた。この議論を通じて、実験計画法というものは、得られたデータを事後的に単に統計的に分析する方法ではなく、従属変数に影響する因子の効果の有無を検討するために最初からデータの収集方法まできちんと決めておく、体系的、組織的なデータの収集・分析の方法である、ということに注意すべきである。

さて、上述の如何なるデザインに対しても、統計学ではそれに特有な構造模型 (structural model) を対応させる。構造模型は、当該デザインにより収集された従属変数の値がどのような数学的な構造式により表現できるかを記述するものである。例えば、CR-p デザインの構造模型は、つぎのように書かれる：

(1.1)

ここで、例えば Y_ik は、当該因子の第i水準の第k被験者の従属変数の値を実現値 (realization) とする確率変数で、α_i は第 i 水準の因子の効果 (正確には、のちに見るように主効果という)を、E_ik は第 i 水準の第k 被験者の測定誤差を実現値とする確率変数を表す。

如何なるデザインでも、因子の効果は、各水準に対して１つづつ対応していると仮定する。したがって、因子の効果がないという仮説 (帰無仮説)は、その水準に対応した効果がすべて等しい、という表現をとる。

ところで、「各水準の効果がすべて等しい」という帰無仮説を表現する方法として、実験計画法、とりわけ分散分析では２つの表現を考える。１つは、当該因子の各水準の効果は定数であると見做される時で、この場合には帰無仮説は、それらの水準の効果を α₁、α₂、...、α_p として、

      H₀: α₁=α₂= ... =α_p,                                   (1.2)

のように表現する。このように、因子の効果を定数と考える構造模型は、母数模型 (fixed-effects model) と呼ばれる。うえの H₀ が成り立つ時は、標本としての従属変数の値の各水準での平均値間には差がないことが期待される。

これに対して、当該因子の各水準の効果は変量 (確率変数)と見做される時には、帰無仮説は (1.2) 式の形ではなく、水準の効果 (仮にA因子の効果とする) が母集団では平均ゼロ、分散 σ_A² なる正規分布 (normal distribution) (これは、統計学では N(0, σ_A²) と書く）に従うと仮定し、その結果として帰無仮説は、

               H₀: σ_A²=0,                                      (1.3)

と書く。この場合の構造模型は、変量模型 (random-effects model) と呼ばれる。

どちらの模型を考えるかは、研究仮説の内容により変る。また、場合によっては構造模型の右辺の誤差項を除く部分の要素が母数と確率変数の両方が混在するデザインを考えることもある。このようなデザインは、混合模型 (mixed model) と呼ばれる。

最後に、分散分析では通常つぎの３つの仮定がなされることに注意しよう。

1. 正規性: (構造模型の)誤差項は正規分布にしたがう。
2. 等分散性: 各セルの (母集団での) 分散はすべて等しい。
3. 独立性: 従属変数の値は互いに独立である。

しかし、通常の分散分析では因子の効果を検討する F- 検定量は、正規性や等分散性のくずれに対してはかなり頑健であるとの研究がなされている。ただしこれらの仮定も、如何なる崩れに対しても F-検定量が頑健である、とまでは言えないことにも注意することが必要である。例えば Pearson (1931) は、F-検定量は正規性仮定からの適度の乖離に関してはたいへん頑健である、としている。また、 Lunney (1970) は、水準間でサンプル数が等しいときは２値変数でも F-検定量は頑健であるが、サンプル数が異なる時には頑健でないとしている。

また、分散の等質性に関しては、Box (1954a,b) や Cochran (1947) の研究からは、水準間でサンプル数が等しいときは、等質性からの適度な乖離に関してF-検定量は頑健であるという結果が得られている。一方、Box (1953, 1954a) では、サンプル数が異なる時には、適度な等質性からの乖離しかない時でさえ、有意性検定への影響は大であるという結果も得られている。

ここで、分散の等質性の検定には、これまで Bartlett (1937)、Hartley (1940, 1950) の方法、Cochran (1941) の方法、及び Box-Scheff\`e (Box, 1953; Scheff\`e, 1959) の方法が知られている。

また、上述の反復測度デザインでは、一般に反復測度因子の水準間では同一被験者が反応することにより、従属変数の値は、独立性の仮定が損われることが多いので、後に見るように因子の効果を検討する F- 検定量や水準間の平均値の比較時の F- や t- 検定量がゆがむ可能性がある。このような場合には、そこで紹介するようにそれに対処するための何らかの手立てが必要なことがある。さらに、反復測度デザインでは、通常の分散分析ではあまり神経質にならなくてよい正規性からの乖離の影響が重大になる場合もあり、注意が必要である。

1.2 節 (１変量) 分散分析の広がり

1.2 節　(１変量) 分散分析の広がり