Eric's color bar icon
 

図解・心理統計学の基礎

Eric's color bar icon

このページは、平成11年6月7日に開設した。
このページは、令和2年4月24日に一部更新した。

under construction icon

第1章 事象・確率・標本空間

  1.1 事象

統計学では、実験や観測結果のことを 事象 (event) と呼ぶ。例えば、 さいころを投げると、1から6の目のいずれかが出るが、それぞれは1つの事象 である。

事象 E に対して、E が起こらないという事象を E 余事象 (complementary event) と呼ぶ。「2つの事象 E1E2 が同時に起こる」という事象は E1 E2 と表される。 これに対して、「2つの事象 E1E2 のいずれかが起こる」という事象は、 E1 E2 と表される。また、同時に2つの事象 E1E2 が起こることが決してない時、E1E2 排反的 (exclusive) と呼ばれる。また、「事象 E1 が起これば 必ず事象 E2 も起こる」ということを、 E1 E2 と書く。この時、集合論では E1E2 部分集合 (subset) であるという。

  1.2 確率・標本空間・確率変数

大ざっぱには、ある事象 E が起こる確からしさのことを 確率 (probability) と呼び、P (E ) と書くことにする。例えば、さいころが理想的 に作られていれば、1から6の目の出る事象を E1 ,E2 ,...,E6 と すれば、

(1)

である。

ここで、一般に起こりうるすべての異なる数の集合から成る事象を 標本 空間 (sample space) と呼ぶことがある。さいころの場合、それは 1,2,3, 4,5,6 である。これを Ω と表せば、一般に P(Ω)=1 である。

確率をより正確に定義すると、つぎのようになる:

  1. 2つの事象 E1E2 を考えたとき、 E1 E2E1 E2 もまた事象である。事象が無限個あれば、 E1 E2,... もまた事 象である。
  2. 起こりうるすべての異なる数の集合からから成る事象 Ω も考える。
  3. 各事象 E には、確率 P(E) が対応しており、つぎの条件を満足する:
    1. P (Ω) = 1,
    2. P (E) 0,
    3. E1,E2,..., が排反事象ならば、
      P (E1 E2...)= P(E1) + P(E2) + ...

一般に、標本空間 Ω は、さいころのような整数値を取る場合と、実数値 を取る場合がある。

このようにして定義される確率は、標本空間またはその部分集合に対して定義 できるので、一種の変数(変量)とみなすことができる。つまり、確率を標本空間 の部分集合の関数とみなす時、われわれはこれを 確率変数 (random variable) と呼ぶ。

  1.3 条件付確率と事象の独立性

 一般に2つの事象 E1、E2に対して

(2)

が成り立つ。したがって、

(3)

上の式での P (E2 | E1) を、E1 のもとでの E2 条件付 確率 (conditional probability) という。(2) 式及び (3) 式とも、 E1E2 を交換すると、つぎの式が成り立つ:

(4)

(5)

 もし、(2) 式で P (E2 | E1) が P (E2) に等しい時は、

(6)

が成り立つ。この時、2つの事象は 独立 (independent) という。

  1.4 確率不等式

 確率不等式(probability inequalities) 全般にわたる専門的な解説書の1つに Tong (1980) がある。例えば、多変量正規分布、多変量 t 分布、多変量カイ2乗分布、 多変量 F 分布、などは、それらのうちの1群である。この節では、各種確率不等式のうち、 分布によらない不等式(distribution-free inequalities) の中の基本的なものに ついてまとめる。これらは、分散分析における多重比較において、よく利用される。ただし、最初の「ブール の公式」は、不等式ではなく等式であることに注意せよ

  1. ブールの公式 (Boole's formula, also known as Poincare's)

     これについては、Hochberg & Tamhane (1987, p.363) が詳しい。それによれば、 E1, E2, ... , Ek, k2 を確率事象(random events) とし、Eic を事象 Ei補集合(complement) とする時、

    (7)

    をブールの公式(又は、ポアンカレの公式)という。

  2. ボンフェロニ不等式 (the Bonferroni inequality)

      例えば Hochberg & Tamhane (1987) も指摘しているように、よく知られた ボンフェロニ不等式は、上記ブールの公式(I.1) 式の 一次近似(the first order approximation) を用いるもので、

    (9)

  3. クニア不等式 (the Kounias inequality)

     (I.3) 式のブールの公式の一次近似を同時2変量確率のみを用いてさらに改良したものが、 クニア(Kounias, 1968) により提案されている:
    (16)

    あるいは、

    (17)

     うえの式は、次のようにも書ける:
    (18)

     Tong (1980, p.147) の次の不等式は、クニアの不等式での P(Ei c)の下限値についても加えたものである:

    (19)

  4. ハンター・ウオルスリー不等式 (the Hunter-Worsley inequality)

     Hochberg & Tamhane (1987)によれば、クニアの不等式はその後 Hunter (1976) 及び Worsley (1982) が独立に同じ結果を得た。以下の結果は、グラフ理論 (the graph theory) に基づく。ここで、サイクル(cycle) を持た ない連結グラフ (the connected graph)、すなわち 生成木 (the spanning tree) を T としよう。この時、もし T が頂点{1, ..., P}を を持つ生成木であり、かつ {i, j}T は i と j が隣接している (djacent) ことを表すならば、次の不等式 が成り立つ:

    (20)

     上式の最も精確な限界値は、右辺第2項が最大になるような生成木を見つけることにより得られる。 この問題を解くには、Kruscal (1956) の最小生成木アルゴリズム (the minimal spanning tree algorithm) を用いればよい(Hochberg & Tamhane, 1987, p.364)。

Eric's back icon

第2章 分布

  2.1 度数分布・母集団分布・標本分布

われわれが手にする (観測する) データは、それらが1変量であれ多変量であれ、 観測対象となる数値の集まり (これを、統計学では 母集団 (population) と 呼ぶ) の中から抽出される。ここで、対象となる母集団の数値の数が有限である 場合、 有限母集団 (finite population)、無限である場合、 無限 母集団 (infinite population) と呼ばれる。

また、抽出された N 個のデータは、サイズ (大きさ) N 標本 (sample) と呼ばれる。

標本抽出の仕方についての2つの重要な概念に、復元・非復元、及び作為・無作為 がある。前者は、サイズ N の標本を選るに際して、一度抽出した個体を戻すか どうかで、戻さない抽出法を 非復元抽出 (sample without replacement)、 戻した後再度抽出する方法を 復元抽出 (sample with replacement) と それぞれ呼ぶ。

後者は、標本抽出を作為的に行うかどうかで、統計学の理論は 無作為抽出 (random sampling) による 無作為標本 (random sample) を前提にする。

さて、母集団での数値の集まりの特徴を見るためには、それらの値のそれぞれを 取る度数なり確率がどれだけあるかがわかればよい。それぞれの数値を横軸に取り、 対応する度数なり確率を縦軸にして、数値のばらつき具合を示したものは、 母集団分布 (population distribution) と呼ばれる。

有限母集団であれば、時間と費用をいとわなければ全数抽出すれば母集団分布は 正確に得られるが、多くの場合それは不可能で、母集団から適当なサイズの標本を 抽出し、それについての分布を描き母集団分布の特徴を推論する。

いずれにせよ、サイズ N の標本における数値を横軸に、度数を縦軸に取って、 数値のばらつき具合を示したものを、 度数分布 (frequency distribution) と呼び、通常母集団分布と区別する。

最後に、統計学ではこれらの他に、 標本分布 (sampling distribution) なる 概念も用いる。例えば、ある母集団からのサイズ N の標本を1つ得たとする。 また、その平均値を とする。 この は、異なる標本では 一般に異なる値を取る。つまり、 は標本を変 えると、同一母集団からからの標本であるにもかかわらずいろいろな値を取る、すなわちある分布を持つ ことになる。通常標本平均は定数と考えるが、上の意味では定数ではなく確率変数とも考えることができ る。そこでそのような場合、われわれは と書き、 と区別する。一般に、 のように標本から作られる量を 統計量 (statistic) と呼ぶ。また、その分布は標本分布と呼ばれ、上述の度数分 布や母集団分布と区別する。

  2.2 離散分布と連続分布

われわれが手にする度数分布は、前節から明らかなように多くの場合、何らかの 母集団分布からのサイズ N の無作為標本とみなされるが、母集団の 理論分布 (theoretical distribution) としては、これまでに多くの分布が提案されている。 これらの分布は、いろいろな角度からの分類が可能であるが、1つの方法は分布を 離散的分布 (discrete distribution) と 連続分布 (continuous distribution) とに分類することである。離散的分布とは、標本空間の要素がさいころ の目の場合のように飛び飛びの値を取る場合であり、連続分布とは、それらが連続 的な値を取る場合である。離散的分布としては、 2項分布 (binomial distribution)、 多項分布 (multinomial distribution)、 ポアソン分布 (Poisson distribution) などが、また連続分布としては、 正規分布 (normal distribution)、 F-分布 (F-distribution)、 t-分布 (t-distribution)、 χ2-分布 (chi-square distribution)、 などがよく知られている。

  2.3 確率密度と分布関数

如何なる確率変数 X の分布も、分布が離散的であれ連続的であれ、標本空 間の各要素に対する確率が特定できれば決まる。そこで、これを

(21)

と書くものとする。この式の f (x) を確率変数が離散型の時には単に 確率関数 (probability function) と、連続型の時には 確率変数 X 確率密度関数 (probability density function) と呼ぶ。 確率密度関数は、 確率密度 (probability density) あるいは単に 密度 (density) と呼ばれることもある。

 一般に、f(x) が確率関数、すなわち離散型の関数、の場合には、f(x) の値が1を超える ことはないが、f(x) が確率密度(関数)の場合には、分布によっては確 率密度 f(x) は x のある範囲では1を超えることがある。F-分布、カイ2乗分布、指数 分布やベータ分布は、そのような例である。しかし、 1.2 節で述べた「確率」の定義での事象に あたるものは任意の連続分布の場合、特定の値 x ではなく特定の範囲(a 以上 b 以下)であり、 x が特定の値を取る確率密度がたとえ1を超える値を持つ分布の場合でも、x が特定の範囲に入 る確率は1を超えることはないので、 1.2 節の確率の定義に矛盾しない。以下に、MATLAB に よる上記の分布のうち、F-分布及びベータ分布の確率密度関数の例を示す。

 まず、図3は自由度の異なるF-分布の確率密度関数の例を4つ示す。

図3. F-分布の確率密度関数の例

 つぎの図4は、2つのパラメータ (a, b) を (0.5, 0.5) (赤)、(3, 3) (緑)、(3, 1) (青)、 (1, 3) (星形5角形)、(2, 6) (黒)、(6, 2)(マゼンタ)と変えた場合の ベータ分布の確率密度関数の例を示す。これを見ると、ベータ分布は非常に多くの形をし た分布が含まれることがわかる。
 とりわけ、心理学でよく使われる5件法や7件法を用いた評定尺度データの分布では正の歪度( 分布の右側により長い尾を持つ)を持つ分布や、逆に負の歪度(同左側により長い尾を持つ)分布 の近似にも使えそうな分布も含まれることに注意したい。また、心理学の領域のデータの場合、 ときどき赤色で示した分布のように U 字型となるものもみられるが、ベータ分布はこれにも対応 できることは興味深い。

図4. ベータ分布の確率密度関数の例

一方、X が離散型か連続型かにより、

(22)

または、

(23)

なる関数を、 累積分布関数 (cumulative distribution function) もしくは 単に 分布関数 (distribution function) と呼ぶ。例えば、連続 分布の1つとしてよく知られた正規分布の確率密度(または密度関数)、及び 分布関数は、それぞれつぎのように書ける。ここで、正規分布の形を決める パラメータである平均値と分散は、それぞれ μ 及び σ2 であるとする:

 まず、正規分布の確率密度関数は、

(24)

である。ここで、正規分布はしばしば平均 μ と分散 σ2 を用いて、 N(μ, σ2) と 表記される。図5は正規分布の確率密度関数の幾つかの例を 示したものである。

図5. 正規分布の確率密度関数の例

 一方、正規分布の分布関数は、

(25)

である。また、正規分布 N(4, 1.52) の分布関数における x=3 までの累積 密度を青色で塗りつぶして示したのが図6である。

図6. 正規分布の分布関数による累積密度の例

  2.4 確率変数の期待値と分散

確率変数 X の分布の特徴を表すための最も基本的な指標に、 期待値 (expectation) 及び 分散 (variance) がある。前者の期待値は平均値 とも呼ばれ、X が離散型か連続型かにより、それぞれ

(26)

または、

(27)

として定義される。

期待値については、つぎのような性質がある:

1.n 個の確率変数 X1,X2, ... ,Xn に対して、
(28)
2.定数 a 及び b に対して、
(29)
3.もし、XY が独立ならば、
(30)

後者の分散は、X が離散型か連続型かにより、つぎのように定義される。 ここで、E (X)=μ とする:

(31)

または、

(32)

一般に、X が離散型か連続型かにより、正数 r に対して

(33)

または、

(34)

を、確率変数の、任意点 a の周りの r 次のモーメント 積率)(moment) μ'r と 呼ぶ。上述の期待値(平均)μ は、その意味では原点 (a =0)の周りの1次の積率であり、 分散は、 期待値(平均)の周りの2次の積率と言える。また、分散の平方根を 標準偏差 (standard deviation) と呼ぶ。以降、平均の周りの r 次 の積率を μr と書くこととする。このように定義すると、例えば、μ = E (X)、μ2 = V (X) と書ける。
 積率については、次節でより詳しく述べる。

分散については、つぎのような基本的な性質がある:

1.定数 a 及び b に対して、
(35)
2.n 個の確率変数 X1,X2, ... ,Xn が互いに独立ならば、
(36)
3.任意の正数 ε に対して、
(37)

最後の不等式は、 チェビシェフの不等式 (Chebyshev's inequality) と 呼ばれる。

 最後に、統計学的分布の特徴として、平均、分散と並び時々議論されるものに、分布の 歪度 (skewness) と 尖度 (kurtosis) がある。歪度は分布の対称性からの歪みを、尖度は分布の(正規分布に比べての) 尖がり具合を、それぞれ表す。
 まず、歪度を γ1 と表すとして、

γ1 = μ3 / μ23/2

と定義される。ここで、μ2、μ3 は、 それぞれ、平均の周りの2次、及び3次の積率である。ちなみに、正規分布の場合、 μ2 = σ2、μ3 = 0 なので、 γ1 = 0 である。また、歪度は、定義から μ3 と同符号なので、 歪度 γ1 が正の分布では、分布はその右側に長い裾を持つ分布となるの に対して、歪度が負の分布では、分布はその左側に長い裾を持つ分布となることがわかる。
 一方、尖度を γ2 と表すとして、

γ2 = (μ4 / μ22) - 3

と定義される。ここで、正規分布の場合、μ4 = 3 σ4 なので、尖度の定義から正規分布の尖度 γ2 は 0 である ことがわかる。そのような尖度を持つ分布は、中位のとがり (mesokurtic) 分布と呼ばれる。 これに対して、尖度が正(γ2 > 0)の分布は、急尖 (leptokurtic) 分布、 尖度が負(γ2 < 0)の分布は、緩尖 (platykurtic) 分布と呼ばれる。

Eric's back icon

  2.5 積率と積率母関数

   2.5.1 積率の定義

既に前節で簡単に紹介したように、一般に平均や分散などの分布を特徴づける基本的な指標は、積率 の概念を用いて統一的に論ずることができる。すなわち、一般に任意点の周り の r 次の積率 (the moment of order r about the point a) μr' は、

(38)

として、また(任意点の周りの)平均(μ1')の周り の r 次の積率 (a moment about the mean) μr は、

(39)

となり、中心積率 (central moment) とも呼ばれる。特に、r=0 の 時の

(40)

は、零次の積率 (a moment of zero order) と呼ばれる。
 一般に、確率変数 X の関数 g(X) の期待値は、離散分布の確率関数を f(x) とすれば、

(41)

 連続分布の確率密度関数を f(x) とすれば、

(42)

として定義される。これらを用いると、μr' は (x - a)r の 期待値、μr は (x - μ1')r の期待値ということ もできる。
 つぎに、任意点 a の周りの r 次の積率を b a の周りの r 次及びそれより小さい次数の積率の言葉で既述することを考えるとする。そのためには、 次のようにすればよい:
 まず、

ここで、上の式の右辺の記号

rCj を表し、r 個の要素から j 個を取り出す組合せの数である。
 この関係から、

 この式で、もし、

 (1) b=μ'1 ならば、a=0 として、

(43)

 (2) a=μ'1 ならば、b=0 として、
(44)

 そこで、例えば r=2, 3, 4 については、a=0 の時、
に注意すると、(43) 式から、

また、(44) 式から、
(45)

最後に、(45) 式を期待値の言葉で表現すれば、平均の周りの2次、3次、4次の積率は、
(46)
となる。


   2.5.2 絶対積率、母積率と標本積率

 前節で定義される積率は、いつも存在するとは限らない。例えば、つぎのコーシー分布

(47)

には平均は存在しない。なぜならば、つぎのようにそれは不定となるからである:

(48)

 一般に、
(49)

は、任意点の周りの r 次の絶対積率 (the absolute moment of order r about a) と呼ばれる。
 また、平均の周りの r 次の絶対積率 (the absolute moment of order r about the mean) は、

(50)

 もし、r 次の積率が存在すれば、r 次以下の絶対積率が存在する。また、r が偶数 (even) の場合、絶対積率は通常の積率に一致する。
 逆に、r 次の積率が存在するためには、絶対積率が存在しなければならない。例えば、 既述のコーシー分布では、原点の周りの一次の絶対積率

(51)

は、不定であることが明らかである:

 つぎに、(38) 式や (39) 式で定義される積率は、正確には母(集団) 積率 (population moment) である。これに対して、標本から計算される積率は、 標本積率 (sample moment) と呼ばれる。まず、 任意点 a の周りの r 次の標本積率 (the sample moment of order r about the point a) は、

(52)

 一方、平均の周りの r 次の標本積率 (the sample moment of order r about the mean) は、

(53)

で定義される。
 母積率と標本積率の概念は、最尤法と対比される積率法 (method of moments) において重要となる(例えば、Dudewicz & Mishra, 1988)。

 これまで述べてきた積率の概念はあくまでも1変量分布に関するものであったが、これは 容易に多変量の場合に拡張でき、一般に乗積積率と呼ばれる。 例えば、2変量 x1 及び x2 のそれぞれの任意点 a1 及び a2 の周りの2変量(乗積)積率は

また、2変量 x1 及び x2 のそれぞれの平均 μ1' 及び μ2 の周りの2変量(乗積)積率は

   2.5.3 確率母関数と積率母関数

  2.5.3.1 確率母関数

 一般に、前節で定義された積率を計算することは必ずしも容易ではない。そのために、補助手段 として母関数 (generating function) と呼ばれる特別な関数を考えるこ とがある。まず、離散 分布の場合、確率変数 X の取る値が 0, 1, 2, ... で、その確率を f(x) と すると、t を変数として、

(54)

を、確率母関数 (probability generating function) と呼ぶ。

 確率母関数については、つぎのことが言える:

  1. P(1)=1,
  2. P(t) は、0 < t <1 で収束する。そこで、P(t) は 0 < t 1 で存在する。
  3. k > 1 なる定数に対して、P(t) の右辺が 1 < t < k で存在するならば、
    (55)

 例1 2項分布の確率母関数と積率

 うえの定義より、2項分布確率母関数 P(t) はつぎのようになる:

(56)

したがって、P(t) の h 階の微分は、つぎのようになる:

そこで、例えば、

したがって、

そこで、(46) 式より、2項分布の例えば平均の周りの4次までの積率、μ2, μ3, μ4 は、

 後述の 3.3.1.2 節 「2項分布の形状とその特徴」のところに示した2項分布の4次までの積率 はこのようにして得られたものである。

 例2 ポアソン分布の確率母関数と積率

 ポアソン分布の確率母関数 P(t) はつぎのようになる:

(57)

ここで、一般に

に注意すると

したがって、

そこで、例えば、

したがって、

これらと(46) 式より、ポアソン分布の例えば4次までの平均の周りの積率、 μ2, μ3, μ4 は、

 確率母関数を、そのまま連続分布の場合に拡張することもできるが、ここでは、つぎに 紹介するように、より一般的な関数を用いることにする。

  2.5.3.2 積率母関数

 上述の確率母関数に対して、つぎの φ(t) は 積率母関数 (moment generating function) と呼ばれる。

(58)
 積率母関数を期待値の言葉で表現すると、
(59)
となる。もちろん、離散分布の場合には、

(60)
 積率母関数については、つぎの重要な性質がある:

性質1
(61)

この性質を導くには、(60) 式の第2右辺の etX をテイラー展開し、その期待値をとると:

(62)

すなわち、積率母関数を テイラー展開すると、その係数に確率変数 X の原点の周りの r 次の積率が出現する。
 そこで、(62) 式の φ'(0), φ''(0), ..., を計算すれば (61) 式が導かれる。

 例1 正規分布の積率母関数と積率

 正規分布の積率母関数 φ(t) はつぎのようになる:

(63)

したがって、

そこで、正規分布の4次までの任意点の周り及び平均の周りの積率はつぎのようになる:

性質2 φ(t) を、ある確率分布の積率 母関数とすると、φ(t) を積率母関数とするような確率分布は1つしか存在しない。
(証明略)

性質3 Fn(x); n=1,2, ..., を 分布関数の無限系列、φn(t), n=1,2, ..., をそれぞれの分布に対応する積率母関数の 系列とする。また、F(x)、φ(t) をある分布関数及び積率母関数とする。この時、F1 (x), F2(x), ..., が F(x) のすべての連続な点で F(x) に収束するならば、 φ1(t), φ2(t), ..., は、φ(t) に収束し、その逆も成り立つ。
(証明略)

性質3を用いると、次の定理を証明できる:

定理 2.1 
  2項分布に従う確率変数 X に対して、
(64)

の分布は、n が無限大の時、正規分布 N(0, 1) に収束する。

(証明)

Y の積率母関数 φn(t) は、

ここで、2項分布の積率母関数が、

であることに注意すると、一般に a, b を定数として、次式が成り立つ:

そこで、

上式の両辺の対数を取ると、ez 及び ln (1+z) のテイラー展開に注意して、

ここで、省略した項はすべて n が無限大の時0に収束することに注意すれば、

この式の右辺は、(63) 式の平均0、分散1の正規分布の積率母関数に等しいので、Y の分布は n が 無限大の時、正規分布に近づくことがわかる。

 積率母関数は、t の幾つかのあるいはすべての値に対して存在しなことが多い。そこで、より 一般的な形の関数を用いることがある。それが、次節の特性関数である。

  2.6 特性関数とキュミュラント

   2.6.1 特性関数

積率母関数をより一般的な形にしたのが、つぎに定義する特性関数 (the characteristic function) φ(t) である:

(65)

 特性関数を期待値の言葉で表現すると、
(66)
となる。ここで、
(67)

は、eitX のテイラー展開から明らかである。

 一般に、特性関数の絶対値は上式の性質から

性質1
(68)

 また、分布関数の性質から

(69)

は収束するので、つぎの性質がある:

性質2 (65) 式のスティルチェス 積分 (the Stieltjes integral) は、t において絶対収束 (absolute convergence) 及び 一様収束 (uniform convergence) する。

 (66) 式の eitX を X=x0=0 でテイラー展開し、その期待値を 取ると、

(70)

 ここで、
(71)

 あるいは、
性質3 
(72)

 例1 平均ゼロの正規分布の特性関数と積率

 平均ゼロの正規分布 N(0, σ2) の特性関数 φ(t) はつぎのようになる:

(73)

そこで、
(74)

故に、
(75)

 例2 ガンマ分布の特性関数と積率

 ガンマ分布 の特性関数 φ(t) はつぎのようになる:

(76)

 ここで、変数変換 z=x(a-it) を行うと、

(77)
 そこで、

 そこで、

 そこで、

(78)

特性関数の役割
 特性関数は、分布の特徴を密度関数 f(x) を一般化フーリエ級数により直交 成分に分解し、当該密度関数が各成分をどれほど持っているかを調べている、ことになる。

 その理由は、次の通りである。すなわち、(65) 式で表される特性関数 φ(t) は、 明らかに f (x) のフーリエ変換 (Fourier transform)(一般形)、すなわち

(79)

の形をしており、フーリエ逆変換 (Fourier inverse transform)、

(80)
と対をなす。
 また、フーリエ逆変換は、一般化フーリエ級数 (Generalized Fourier series)
(81)
の特殊形である。

 言い換えれば、特性関数 φ(t) は、任意の分布(密度関数) f(x) を、一般化フーリエ 級数で展開(フーリエ逆変換にあたる)
(82)
した時、関数 e-itx に対する正射影
(83)
である、と言える。

 最後に、乗積積率の特性関数の定義を示す。ここまでに紹介した 積率が1変量の分布のそれであるのに対して、これを2変量以上の場合に拡張したものが乗積積率 である。

まず、2変量乗積積率の特性関数はつぎのようになる:

つぎに、一般の多変量乗積積率の特性関数はつぎのようになる:
ここで、上式中の指数関数の肩のべき乗 i ttx における ベクトル t の肩の t は、ベクトル t転置 を意味することの注意せよ。なお、上式中のベクトル t 及び x は共に p 次の列 ベクトルを表すものとする。

   2.6.2 キュミュラント

これまでに述べた積率は、ある状況では分布の特徴を記述するのに適している。しかし、 積率は、そのための唯一の指標でもないし、最適なものであるとも限らない。理論的に は、つぎに定義するキュミュラント (cumulants) κ1, κ2, ..., κr がより有用である。

(84)

 上式より、キュミュラントは e のべき乗における t の無限級数の係数から成ることが 明らかである。
 より一般的には

(85)

(84) 式からは、μr' が特性関数 φ (t) における (it)r/r! の係数であるのに対して、κr は ln φ (t) における (it)r/r! の係数であることがわかる。ln φ (t) は、キュミュラント母関数 (cumulant-generating function) と呼ばれる。
 任意点の周りの積率 μr' (あるいは原点の周りの積率)は、確率 変数 X の原点を a から b に変えると変わるが、キュミュラントは、一次キュミュラント を除き、原点の変換に対して不変である。なぜならば、b-a=c として、(85) 式で原点を a から b に変えると、


となるので、ln φ (t) への効果は、


 したがって、


より、ln φ (t) に -itc を加えるだけのものとなり、(85) 式から

であるから。
 そこで、x の任意の線形変換 lx+m に対して、κr には、lr が 掛かるのみとなる。

 積率とキュミュラントの関係は、(84) より、

(86)
 これより、


ここで、2番目の Σ は、

なるすべての非負の正数に亘る。
 例えば、

(87)

そこで、平均の周りの積率については、

(88)

逆に、(84) 式より



故に、一般に

であることに注意すれば、

これより、

ここで、2番目の Σ は、、

なるすべての非負の正数 j1, ... , jm 及び l(エル)に亘る。
 例えば、

そこで、平均の周りの積率については、

(89)

 キュミュラントについては、(84) 式から、つぎの性質があることがわかる:

性質1 r 次のキュミュラントは、もし r 次以下の積率が存在するならば、存在する。

 また、(85) 式より、

(90)

 例1 正規分布のキュミュラント

 平均ゼロの正規分布の特性関数は、(73) 式で表されるので、

 この式と (90) 式を比較して、

(91)

Eric's back icon

第3章 基本的な統計量の分布と非心分布

ここでは、確率変数の和、平均値や分散などの基本的な統計量の分布について の定理を、裏西ら (1967) に従い証明ぬきで示す。また、基本的な 非心分布 (non-central distribution) についても列記する。最後に、 中心極限定理 (central limit theorem) にふれる。

  3.1 連続分布

   3.1.1 正規分布

    3.1.1.1 正規分布にかかわる定理

定理 1
確率変数 X が正規分布 N (μ,σ2) に従うとき、任意の実数 a (\ne 0) 、b に対して、確率変数 Y= aX + b は正規分布 N (aμ + b, a2σ2) に従う。

定理 2
互いに独立な確率変数 X 及び Y が、それぞれ正規分布 N (μx , σ2x ) 、N (μy2y ) に従うとき、ゼロでない実数 a ,b に対して、確率変数 aX + bY は正規分布 N (x +bμy ,a2σ2 x +b2σ2y) に従う。

定理 3
 正規分布 N (μ ,σ2 ) に従う互いに独立な確率変数 X1 ,X2 , ...,Xn から作った算術平均 は、正規分布 N (μ ,σ2/n) に従う。

定理 4
 互いに独立な2組の確率変数 X1 ,X2 ,...,XnY1 ,Y2 , ...,Ym とが、それぞれ N (μx2x ) 、 N (μy2y ) に従うとき、 の分布は、 N (μx - μy2x /n +σ2y /m ) に従う。

    3.1.1.2 正規分布の形状とその特徴

 (24) 式で表される正規分布の密度関数の図の例については、図5を参照のこと。また、 正規分布の期待値、平均の周りの2次から4次までの積率、ならびに歪度、及び尖度は、前節 の最後でも述べたように、つぎの通りである:

 μ'1 = E (X)=μ、μ2 = V (X) = σ2、μ3 = 0、 μ4 = 3 σ4、γ1 = 0, γ2 = 0.

   3.1.2 χ2-分布

    3.1.2.1 χ2-分布にかかわる定理

定理 5
 確率変数 Z が単位正規分布 N (0,1) に従い分布している時、確率変数 Z2 =Y の密度関数 f (y ) はつぎの式で与えられる 自由度 (degree of freedom) 1 の χ2-分布に従う。
(92)

定理 6
 互いに独立な確率変数 X,Y が、それぞれ自由度 ν12 の χ2-分布に従う時、和の分布 U =X +Y は、自由度 ν12 なる χ2-分布に従う。

  一般に、自由度 ν の χ2-分布の密度関数は、つぎの式で与えられる。
(93)

ここで、ガンマ関数 (Gamma-function) とは、まず一般に、実数 x に対して、
として定義される関数である。しかし、しばしばこの関数で x= a-1 (ここで、a > 0) としたもの を、ガンマ関数と呼ぶ。この時、うえの式は、つぎのように書ける。ここで、以下の式では、x ! の 式での変域 t を x に変更していることに注意せよ :

ガンマ関数は、後述の t-分布や非心カイ2乗分布などの 統計学的分布の中にしばしば現れる基本的な関数の1つである。

定理 7
 正規分布 N (μ,σ2) に従う互いに独立な確率変 数 X1 ,X2 ,...,Xn について、分散と平均
(94)
から作られる確率変数 nS22 は、自由度 n -1 の χ2 -分布に従い、 とは独立である。

    3.1.2.2 χ2-分布の形状とその特徴

 図7は、MATLAB による自由度1から4までのχ2-分布の確率密度関数 を示す。このうち、自由度1のχ2-分布の x=0 における確率密度は無限大にな るが、図では 1.2 をわずかに超えるところまでしか表示していないことに注意せよ。

図7. χ2-分布の確率密度関数の例

  (93) 式で表される自由度 ν の χ2-分布の期待値、平均の周りの2次 から4次までの積率、ならびに歪度、及び尖度は、前節の最後でも述べたように、つぎの通り である:

 μ'1 = E (X)=ν、μ2 = V (X) = 2 ν、μ3 = 8 ν、μ4 = 12 ν (ν + 4)、γ1 = 2 21/21/2, γ2 = 12/ν.

 また、同分布の最頻値 M0 、ν > 2 の時、 単峰分布となり、ν - 2 である。

  ちなみに、うえの図7の4つの分布のうち、自由度2の χ2-分布、χ 22 では、平均 E(X) は2、最頻値 M0 は 0 である。また、 自由度3のχ2-分布、χ32では、平均 E(X) は3、最頻値 M0 は 1である。一方、γ1 の値から、χ2- 分布は常に正の歪みを持ち、γ2 の値から、急尖分布であることがわかる。

   3.1.3 F-分布

    3.1.3.1 F-分布にかかわる定理

定理 8
 確率変数 U1 及び U2 が、それぞれ自由度 ν1 及び ν2 の χ2-分布に従う時、それらの比 F =(U11 )/(U22 ) は、 つぎの式で与えられる F -分布に従う。
(95)

ここで、ベータ関数 (Beta-function) とは、 0 x 1、及び a, b > 0 に対して、
として定義される関数である。ベータ関数は、既に上述のカイ2乗分布の確率密度関数の定義 にも出てきたガンマ関数との間に、つぎの興味深い関係があることが知られている(例えば、 宇野, 1966):

なお、この式は以降に述べる 非心カイ2乗分布とカイ2乗分布の関係 を調べるに際しても、役立つ。

    3.1.3.2 F-分布の形状とその特徴

  F-分布の確率密度関数の図の例をつぎに示す:

図8. F-分布の確率密度関数の例

  (95) 式で表される自由度 ν1 及び ν2 の F-分布の期待値、 平均の周りの2次から4次までの積率、ならびに歪度、及び尖度は、前節の最後でも述べたよ うに、つぎの通りである。興味深いことに、F-分布では平均は第2自由度のみによって決まる ことがわかる:

 また、同分布の最頻値 M0 、 M0 = {ν21 - 2)}/ {ν12 + 2)} である。
  ちなみに、図8の3つ目の分布の場合、自由度が ν1=3, ν2=8 なので、平均 μ1' は 1.333..., 最頻値 M0 は 0.2666... となる。一方、γ1 の値から、F-分布は、ν2 > 6 のとき、 正の歪みを持つ分布であることがわかる。

   3.1.4 t-分布

    3.1.4.1 t-分布にかかわる定理

定理 9
 確率変数 X が自由度 ν なる χ2-分布に従い、これとは独立 な確率変数 Z が単位正規分布に従う時、 の密度 関数 f (u ) は、つぎの式で与えられる自由度 ν の t -分布に従う。
(96)

ここで、うえの式の右辺の関数 Γ は、ガンマ関数である。

定理 10
 正規分布 N (μ ,σ2 ) に従う互いに独立な確率変 数 X1 ,X2 ,...,Xn について、(26) 式による分散と平均から作られる確率変数 は、自由度 n -1 の t -分布に従う。

    3.1.4.2 t-分布の形状とその特徴

 以下に、MATLAB によるt-分布の確率密度関数の例を2つ示す。まず、 図9は自由度5の t-分布を赤色で示し、さらにこの t-分布の分散が 5/3 になることに注意し、 分散の等しい正規分布を青色で示したものである。
 ここで、両分布とも、横軸 x の変域はもちろん定義よりマイナス無限大からプラス無限大に 亘るが、図9では、マイナス8からプラス8までしか描いていないが、両分布の尾の部分例えば x の絶対値がおよぞ5より大きい部分の曲線は、縦軸すなわち f(x) の値が小さいためぼやけて しまっている。

図9. t-分布の確率密度関数(赤色)の例(青色は正規分布の例)

 つぎに、t-分布と正規分布が、両分布の分散が等しい場合、前者の方がより重くて大きな広がり (heavier tails and a larger spread) を持つという特徴(例えば、Martinez et al., 2008, p.42) を図示したのが、図10である。この図で両分布の尾の部分を比較すれば、その特徴は明らかで ある。ここで、図10の縦軸のスケールは f(x)/1000、すなわち通常の1000分の1にしてある ことに注意せよ。
 なお、t-分布は極限では(自由度が無限大なる)正規分布と一致することもよく知られている。

図10. t-分布の確率密度関数(赤色)(青色は正規分布の例)の尾の部分の特徴

 (96) 式で表される t-分布の期待値、平均の周りの2次から4次までの積率、ならびに歪度、及び 尖度は、つぎの通りである:

μ'1 = E (X)= 0,

μ3 = 0,

γ1 = 0,

 また、同分布の最頻値 M0 、0 である。

 うえの γ1 の値から、t-分布は、ν2 > 4 のとき、 急尖分布であることがわかる。図9を見ると、分散が同一の正規分布(尖度 0)と 比べて、t-分布の方が尖っていることがよくわかる。

   3.1.5 ガンマ分布

    3.1.5.1 ガンマ分布にかかわる定理

ガンマ分布 (a Gamma distribution) は、次式の確率密度関数を持つ:

  (62)

定理 11
 ガンマ分布は、ガンマ関数が絶対収束するために、すべての次数の積率が存在する。

    3.1.5.2 ガンマ分布の形状とその特徴

ガンマ分布の特性関数は、まず特性関数の定義より、

以下に、ガンマ分布の確率密度関数の例を幾つか示す。図中、G(γ,a) は、その 確率密度関数が、上記の f(x,γ, a) であることを示す。

図11. ガンマ分布の確率密度関数の例

ガンマ関数の4次までの積率は、既にその特性関数のところで示したようになる。

3.2 非心分布

 通常われわれが扱う統計量の分布は、検定の文脈では帰無仮説のもとでのそれであるが、検出力 (power) を問題にする場合にはいわゆる非心分布の議論が必要になる。よく知られた正規分布の場合には、対立仮説 (lternative hypothesis) のもとでの分布もまた正規分布になるが、χ2-分布、 F -分布、t -分布などの場合には、分布は非心分布となる。
 なお、これらの分布の密度関数の式は、通常の中心分布と比べてさらに複雑な形を取るので、 ここでは省略する。ただし、以下には、それら非心分布の密度関数の例と対応する(中心)分 布の例とを比較した図を示す。

   3.2.1 非心 χ2-分布

    3.2.1.1 非心 χ2-分布

 まず、自由度 ν の 非心 χ2-分布 (non-central χ2 distribution) は、Fisher (1928) により与えられた もので、互いに独立な ν 個の正規分布 Ni ,1) ,i =1, ..., ν で に従う変数の2乗和の分布として 定義される。ここで、λ をこの分布の 非心母数 (non-central parameter) と呼ぶ。
 自由度 ν の 非心χ2 分布 の確率密度関数は、λ を非心母数 (non-central parameter) として、

(97)

ここで、ν は正整数であり、λ 0, z 0 である。非心 χ2 分布で 非心母数の値がゼロの場合が、上述の χ2 分布であることは、非心 χ2 分布の定義式である (43) 式と、χ2 分布の定義式である (40) 式を比較するに際して、 上述の F-分布の定義のところで定義した ベータ関数 とその性質に注意すれば、明らかとなる。

    3.2.1.2 非心 χ2-分布の形状とその特徴

 図11は、例として非心度 λ=5.0 で自由度が1から4までの 非心 χ2-分布の確率密度関数を示す。

図11. 非心度 λ=5.0 の非心 χ2-分布の確率密度関数の例

 一方、非心 χ2-分布で λ=0 の場合を、通常の (中心) χ2-分布 (central χ2 distribution または単に χ2 distribution) と呼ぶ((25) 式)参照)。
 つぎの図12は、自由度4で非心度 λ=5.0 の χ2-分布(赤)と、自 由度4の(中心)χ2-分布(青)を比較したものである。

図12. (中心)χ2-分布と非心 χ2-分布の確率密度関数の比較

  (97) 式で表される自由度 ν で非心母数 λ の 非心 χ2-分布の期待値、 平均の周りの2次 から4次までの積率、ならびに歪度、及び尖度は、つぎの通り である:

 μ'1 = E (X)=ν + λ、μ2 = V (X) = 2 (ν + 2λ)、 μ3 = 8 (ν + 3λ),
μ4 = 12 {ν2 +4(λ + 1)λ + 4λ(λ + 1) },

であり、さらに、

である。

 これらより、同分布は常に正の歪度を持つ分布で、急尖分布であることがわかる。

   3.2.2 非心 F-分布

    3.2.2.1 非心 F-分布にかかわる定理

 つぎに、互いに独立な2つの確率変数 z1 及び z2 が、それぞれ自由度 ν1 及び ν2 で非心母数 λ1 及び λ2 を持つ非心 χ2-分布 に従うとする。この時、u =z1/z2 の分布は、 Tang (1938) によれば、λ = λ1 + λ2、 ν = ν1 + ν2 として、次式で与えられる:

(98)

ここで (44) 式に

なる変換を行ったものは、 二重非心 F -分布 (doubly non-central F-distribution) と呼ばれる。2重非心分布は、次式で表される:

(99)

ここで、λ=λ1 + λ2、ν=ν1 + ν2、λ1, λ20, 0 w 、ν1, ν2 は正整数である。
 一方、二重非心 F -分布で、λ1 =λ かつ λ2 =0 と置いたものは、一重の非心 F -分布となるが、通常これ は、自由度 ν12 で非心母数 λ を持つ 非心 F -分布 (non-central F distribution) と呼ばれる。非心 F -分布は、次式で表される:

(100)

ここで、λ0, 0 x , ν1, ν2 は正整数である。

    3.2.2.2 非心 F-分布の形状とその特徴

 図13は、非心度5で、2つの自由度がそれぞれ (1, 3)、(2, 3)、(3, 8)、(10, 15) の 非心 F-分布の確率密度関数の例を示す。

図13. 非心度5の非心 F-分布の確率密度関数の例

 さらに、非心 F -分布で、非心母数 λ=0 の時、通常の F -分布と呼ぶ((27) 式)。 図14は、自由度 (10, 15) の、通常の(中心)F-分布と非心 F-分布の確率密度関数を示す。

図14. (中心)F-分布と、非心度5の非心 F-分布の確率密度関数の比較

 非心 F-分布の3次までの積率と歪度については、柴田 (1981) が示している。

   3.2.3 非心 t-分布

    3.2.3.1 非心 t-分布にかかわる定理

 二重非心 F-分布で、ν1 = 1 の場合を 二重非心 t2 -分布 (non-central t2-distribution) と呼ぶ。この分布で、t2 から t に変換したものを 二重非心 t-分布 (doubly non-central t-distribution) と呼ぶ。
 同様にして、(一重)非心 F-分布で、ν1 = 1 の場合を 非心 t2 -分布、さらに 、t2 から t に変換 したものを 非心 t-分布 (non-central t-distribution) と呼ぶ。すなわち、互いに独立な2つの 確率変数 Z1 ,Z2 のうち、Z1N (λ ,1)、Z2 が自由度 ν の(中心) χ2 -分布に従う時、変換

により、非心母数 λ を持つ自由度 ν の t-分布が得られる。非心母数 λ を 持つ自由度 ν の t-分布の確率密度関数は、次式で表される:

(101)

ここで、λ > 0, - x , ν は正整数である。

    3.2.3.2 非心 t-分布の形状とその特徴

 図15は、非心度5の非心 t-分布の確率密度関数の図の例を示す:

図15. 非心度5の非心 t-分布の確率密度関数の例

 非心 t -分布は、非心母数 λ =0 の時、通常の t -分布となる((28)式)。

図16. 自由度10の(中心)t-分布と、同非心度5の非心 t-分布の確率密度関数の比較

  3.3 離散分布

  この節では、離散分布の代表的なものについて、それらの確率関数を示す。

   3.3.1 2項分布

    3.3.1.1 2項分布の確率関数

 第1は、2項分布 (binomial distribution) である。一回の試行で、ある事象の生起する確率が p であるとする。このような試行は、ベルヌイ試行 (a Bernoulli trial) と呼ばれる。ベルヌイ試行を独立に n 回繰り返したとき、x 回その事象の起こる確率は、2項分布 で与えられる。ここでは、2項分布をBn (x,n,p) と書くものとする。この 確率関数は、
(102)

3.3.1.2 2項分布の形状とその特徴

 図17は、n=6 で母比率 p を 0.1, 0.3, 0.5, 0.7 と順に変えた 2項分布の確率関数の例を MATLAB で描いたものである:

図17. 2項分布の確率関数の例

 2項分布の期待値、平均の周りの2次から 4次までの積率、ならびに歪度、及び尖度は、つぎの通りである。ここで、q = 1 - p とする:

 μ'1 = E (X) = np、μ2 = V (X) = npq、μ3 = npq (q - p)、μ4 = npq [ 3 (n - 2)pq +1]、

である。また、

2項分布は、γ1 の値から、p > 1/2 の時負の歪みを、p < 1/2 の時正の歪みを持つ 分布となる。また γ2 の値から、 常に緩尖分布であることに注意したい。ただし、 2項分布は、γ1 及び γ2 の値から明らかなように、パラメータ n が 無限大の時は、歪みも歪度もゼロとなり、正規分布に一致する。

   3.3.2 Poisson 分布

    3.3.2.1 Poisson 分布の確率関数

 まれに起こる事象(例えば、古くは馬に蹴られて死ぬ兵士の数)は、しばしばPoisson 分布 (Poisson distribution) に従うことが知られている。この確率関数は次式で表される。ここで、 Poisson 分布のパラメータ λ は正の実数である。また、x は整数である:
(103)

    3.3.2.2 ポアソン分布の形状とその特徴

 図18は、母数 λ の値を 0.5, 1.0, 5.0, 10.0 とした場合の Poisson 分布の確率関数の例を示す。

図18. Poisson 分布の確率関数の例

 ポアソン分布の期待値、平均の周りの2次から4次までの積率、 ならびに歪度、及び尖度は、つぎの通りである:

 μ'1 = E (X)=λ、μ2 = V (X) = λ、μ3 = λ、μ4 = 3 λ2 + λ、γ1 = 1/(λ1/2), γ2 = 1/λ.

ポアソン分布は、γ1 も γ2 も正となり、常に正の歪みを持ち、かつ急尖分布であることに注意したい。ただし、ポアソン分布 は、γ1 及び γ2 の値から明らかなように、パラメータ λ が 無限大の時は、正規分布となり、これらの特徴は消失する。

  3.4 多変量分布

 これまでに紹介した理論分布は、すべて1変量の分布である。ここでは、多変量分布の代表 的な幾つかを紹介する。それらは、多変量正規分布 (multivariate normal distribution)、 多変量 t-分布 (multivariate t-distribution) などである。

   3.4.1 多変量正規分布

    3.4.1.1 多変量正規分布の確率密度関数

 多変量正規分布 (the multivariate normal distribution) は、(24) 式で示した1変量の正規 分布を多変量に拡張したもので、その確率密度関数の一般形は、

(104)

として表される。ここで、A は定数 ajk, j, k=1, ..., p を要素とする p 次 の正方行列、x は確率変数 xj, j=1, ..., p を要素とする p 次元ベクトル、 μ は確率変数の各々の平均 μj, j=1, ..., p を要素とする p 次元ベ クトルである。
 ここで、もし A の階数 (rank) が次数 p に等しければ、(階数 p の)p 変量正規分布 (p-variate normal distribution)、階数が p より小さい r で あれば、階数 r の p 変量正規分布(あるいは、退化多変量正規分布 degenerate multinormal distribution) と呼ばれる。
 また、A の階数が p の場合、A の逆行列が定義でき、p 個の確率変数の共分散 行列 Σに等しい。すなわち、

(105)

ここで、行列 Σの (j, k) 要素は変量 j と k の(母)共分散 σjk、 (j, j) 要素は変量 j の(母)分散 σj2 である。これを用いると、 (50) 式は

(106)

と書ける。こちらが通常の多変量正規分布の確率密度関数を表す。

    3.4.1.2 多変量正規分布の形状とその特徴

 ここでは、多変量正規分布の確率密度関数の例として、2変量正規分布 の確率密度関数の例 を図19に示す。

図19. 2変量正規分布の確率密度関数の例

   3.4.2 多変量 t-分布

    3.4.2.1 多変量 t-分布の確率密度関数

 多変量 t-分布 (multivariate t-distribution)、より正確 には多変量非心 t-分布 (multivariate noncentral t-distribution) の確率密度関数は、

(107)

と書ける。 ここで、行列 R は p×p (母)相関行列で、その (j, k) 要素は変量 j と k の (母)相関係数である。一方、その (j, j) 要素は1である。また、ベクトル x 及び非心母 数 λ は、p 次のベクトルである。
 (107) 式の多変量非心 t-分布は、非心母数ベクトルが λ=0 の場合、 (中心)多変量 t-分布 となる。

    3.4.2.2 多変量 t-分布の形状とその特徴

 ここでは、多変量 t-分布の確率密度関数の例として、2変量 t-分布の確率 密度関数の例を図20に示す。

図20. 2変量 t-分布の確率密度関数の例

   3.4.3 多項分布

    3.4.3.1 多項分布の確率関数

 一回の試行で k 個の相互に排反的な事象 (mutually exclusive events) E1, ..., Ek のいずれかが生起し、それらの確率がそれぞれ p1, ..., pk であるとする。このような試行を独立に n 回繰り返したとき、E1, ..., Ek がそれぞれ x1, ..., xk 回起こる確率は、多項分布 (multinomial distribution) で与えられる。多項分布の確率関数は次式で表される。
(108)
ここで、 および であるものとする。 さらに、右辺のカッコ記号は n 個の中にカテゴリー C1 が x1個、 カテゴリー C2 が x2個、...、カテゴリー Ck が xk個含まれる組合せ (combination) 総数を表すものとする。ここで、各 xj (j=1,...,k) は、0 から n の値を取る。3.3.1 節の2項分布は、明らかに 多項分布の特別なケースである。

    3.4.3.2 多項分布の形状とその特徴

 図21は、 多項分布の確率関数の例(三項分布)を示す:

図21. 多項分布の確率関数の例(三項分布)

  3.5 中心極限定理

これまで述べてきた各種の基本的な統計量の分布は、すべてそのもとになる 確率変数に対して、何らかの分布を仮定することにより導かれた。それに対して、 つぎに示す中心極限定理は、個々の確率変数に対してはその積率に対して非常に弱い 条件を課するだけで、確率変数の和の分布が標本のサイズを大きくすれば、正規 分布に近づくことを保証する。一口に中心極限定理といっても、最初の De Moivre-Laplace の定理から、Lyapunov の定理、Lindeberg-Feller の定理など があるが(例えば、柴田、1981)、ここでは Lindeberg-Feller の定理のみを示す。
定理 11
 X1,X2,...,Xn,... を互いに独立な確率変数の列、Xn の 分布関数を Fn (x ) とする。n =1,2,... について E (X2n )<\infty$ と し、μn =E (Xn )、 σ2n =V (Xn)、 Wn =X1 +X2 + ... +Xn 、 s2n2122 + ... +σ2n と置く。つぎの 1. 及び 2. が成立するための必要十分条件は 3. が成立することである。
  1. (Wn -E(Wn ))/ sn の極限分布は N (0,1) である。
  2. Lindeberg の条件:任意の ε>0 に対して
(109)


Eric's back icon

第4章 仮説の検定と2種類の過誤

この節では、Kendall and Stuart (1973) に従って、統計的仮説の検定と2 種類の過誤についてまとめる。

  4.1 統計的仮説検定と2種類の仮説

Kendall and Stuart (1973) によれば、一般に 科学的仮説 (scientific hypothesis) と呼ばれるものは、データに基づいてその真偽を検証するための 言明である。この特別な場合を、われわれは 統計的仮説 (statistical hypothesis) と呼ぶ。
 統計的仮説検定におけるデータは、何らかの母集団からのサイズ N の標本 x1,x2, ... ,xN であり、 これを1つのベクトル x と考える時、 N 次元空間の点として表せる。したがって、この空間を標本空間と呼ぶ。この 標本空間の定義は、 1.2 で述べたそれと若干異なるので、注意が必要である。
 ベクトル x を確率変数とみなすと、それは一定の分布を持つ。したがって、 われわれがもし標本空間の中のある領域 w を選ぶとすれば、標本点 xw に入る確率 P (x \in w ) を計算することができる。これに関する 仮説が統計的仮説である。
 統計的仮説にはいろいろなものがある。1つは、分布の 母数 (parameter) に関するものであり、他方は分布の形に関するものである。前者は パラメト リック仮説 (parametric hypothesis)、後者は ノンパラメトリック仮説 (non-parametric hypothesis) と呼ばれる。

  4.2 単純仮説と複合仮説

前節で述べたパラメトリック仮説にも、2種類を考えることができる。 ここで、ある分布の母数を θ12. ... ,θl と書くこととする。この母数の組 (θ12. ... ,  θl ) は、 母数空間 (parameter space)  を構成する。
 ある仮説が、この母数空間のうちの k 個を指定するものとする。もし、k = l ならば、その仮説は 単純仮説 (simple hypothesis) であると言い、  もし、 k < l であれば、 複合仮説  (composite hypothesis) であると言う。
 幾何学的には、もし仮説が母数空間内の点を指定するものならば単純仮説であり、 部分領域 (sub-region) を指定するものであれば複合仮説である。

  4.3 棄却域と対立仮説

観測値に基づいて、ある仮説を検定するためには、われわれは標本空間を 2つの領域に分けなければならない。もし、標本点 x がそれらのうちの 1つ例えば w に落ちるならば、われわれは仮説を 棄却 (reject) する。 これに対して、もし 標本点 x が補領域 W - w に落ちるならば、われわれ は仮説を 採択 (ccept) する。また、ここで w を検定の 棄却域 (critical region of the test) と呼び、領域 W - w 採択域 (cceptance region) と呼ぶ。また、検定される仮説を、 帰無仮説 (null hypothesis) と呼ぶ。
 さて、帰無仮説のもとでの観測値の分布がわかれば、われわれは帰無仮説 H0 を棄却する確率があらかじめ設定された値 α に等しいような領域 w を 決めることができる。すなわち、

(110)

この (56) 式の α を 有意水準 (level of significance) と呼ぶ。これを 検定のサイズ (size of the test) と呼ぶこともある。

  4.4 2種類の過誤と検出力

帰無仮説と対立仮説の議論からは、統計的検定に際して2種類の過誤 (error) が 存在することがわかる。それらは、つぎの2つである。

  1. 帰無仮説が正しい時に、それ(帰無仮説)を棄却する。
  2. 対立仮説が正しい時に、それ(対立仮説)を棄却する(帰無仮説が間違 っている時に、それ(帰無仮説)を採択する)。

これらの過誤を、それぞれ 第1種(Type I)の過誤 (error of the first kind)、 第2種(Type II)の過誤 (error of the second kind) と呼ぶ。
 第1種の過誤は、 危険率 (level of significance) に等しい。第2種 の過誤を β と書くとして、1-β を 検出力 (power of the test) と 呼ぶ。統計的検定における帰無仮説は、多くの場合、何らかの母数間に差がないことを 意味するので、検出力が高い(1-β の値が大きい)検定とは、母数間に差が ある時それを検出する力の大きい検定である、と言える。
 一般に、帰無仮説の検定に際して同じ危険率を持つような棄却域のうち、いずれを 選ぶかという時には、第2種の過誤が最小、すなわち検出力が最大になるような 棄却域が望ましいと言える。このような棄却域は、 最良棄却域 (best critical region 略して BCR) と呼ばれる。また、BCR に基づく検定は 最強力検定 (most powerful test 略して MP 検定) と呼ばれる。

  4.5 片側検定と両側検定

一般に、棄却域を分布の片側にとる検定を 片側検定 (one-sided test)、 分布の両側にとる検定を 両側検定 (two-sided test) と呼ぶ。例えば、 平均値の差の検定に際して、どちらの検定方式を用いるべきかは、対立仮説が どのようであるかによる。もし、対立仮説が単に両群に差があるというものであれば、 危険率を分布の両側に分けた方が、一般的に言って第2種の過誤を小さくするには 無難であることが容易にわかる。もっとも、検定によっては最初から片側検定しか 考えられない場合もあるので、注意が必要である。


Eric's back icon

第5章 Bayes の定理・最尤原理とML 推定量

  5.1 Bayes の定理

定理 11
 q1, ... ,qn を情報 H のもとでの N 個の排反的言明とする。 この時、H のもとで言明 p が真の時、 言明 qr (r =1, ... ,n ) が 真である確率 p (qr /p ,H ) は、つぎのように書ける。
(111)

Bayes の定理は、情報 H のもとで言明 p が真の時、N 個の排反的 言明のうち qr が真である確率は、qr が真である確率に、qr が真の 時に言明 p が真である確率を掛けたものに比例することを意味している。

  5.2 事前・事後確率と尤度

前節の (31) 式は、つぎのようにも書ける。

(112)

ここで、(112) 式の右辺の L (p / qr,H ) は (111) 式の p (p / qr,H ) をそのように書き直したにすぎない。
 さて、ここで p を広義のデータとみなしてみよう。この時、(112) 式の 左辺 p (qr / p,H ) は、情報 H のもとでデータ p が 与えられた時、N 個の排反的仮説 q1 , ... ,qn のうちの qr が真である確率で、 事後確率 (posterior probability) と呼ばれる。
 一方、(112) 式の右辺の p (qr / H ) は、データ p に無関 係に、情報 H のもとで仮説 qr が真である確率と考えられ、 事前確率 (prior probability)と呼ばれる。
 最後に、(112) 式の L (p / qr,H ) は、情報 H のもとで仮説 qr が真の時、データ p を手にする確率であり、 尤度 (likelihood) と呼ばれる。
 このように (112) 式を解釈すると、(111) 式の Bayes の定理は、つぎのように も言える:

事後確率は、事前確率と尤度の積に比例する。

 壷の中に4つの球が入っているが、中は見えないとする。さらに、 球の構成は、(1) すべて白、か (2) 3つは白で1つは黒、のいずれであることは わかっているとする。この壷の中から球を1つ取り出しては元に戻す、すなわち 復元抽出を繰り返すとする。この試行から、球の構成についてのうえの2つの仮説 (これらをそれぞれ q1 , q2 であるとする)のいずれが真であるかを判断する 問題を考えてみよう。
 まず、1つの球を取り出したら白であったとする。これがデータ p にあたる。 また、H は、このような条件下での第1試行時にわれわれが手にしている情報 を指す。この時、q1 , q2 の尤度は、
(113)

である。
 一方、この時の q1 , q2 の事前確率 p (q1 /H ), p (q2 /H ) は、 共に 未知である。したがって、データ p すなわち第1試行で白い球を手にした時、 q1 , q2 が真である確率、すなわち事後確率は、計算でき ない。一般に、 このような事態に遭遇した時どうのような仮説を選ぶかについて、いろいろな 方法が提案されているが、それらのうちの代表的なものが、つぎに述べる Bayes の提案と最尤原 理である。

  5.3 Bayes の提案と最尤原理

事前確率が未知の場合の仮説選択の第1の方法は、 Bayes の提案 (Bayes' postulate)、または 不可知均等分布の原理 (principle of equidistribution of ignorance) と呼ばれ、統計的推論の理論の中で、最も大きな 論点の1つである。

(Bayes の提案)複数の仮説の事前確率が共に未知の場合は、それらはすべて 等しいとみなす。

 第2の方法は、 最尤原理 (maximum likelihood principle) である。

(最尤原理)複数の仮説の事前確率が共に未知の場合は、尤度最大の仮説を選ぶ。

  5.4 最尤原理とML推定量

一般に、サイズ N の標本 x1, ... ,xN から、それらが 得られた母集団 の特徴を表す未知数、すなわち 母数 (parameter) θを特定する問題を考えてみよう。この場合、帰無仮説 H0: θ= θ0r は、(58) 式では、仮説 qr にあたる。
 もし、θ の事前確率、すなわち p(θ =θ0r/H) が既知であれば、Bayes の定理を用いてすべての仮説 r 個のそれぞれの事後確率を計算 し、データのもとで事後確率が最大になるような仮説 θ =θ0r/H を選べばよい。
 しかし、一般には θ の事前確率は未知の場合が多い。このような時、 (32) 式の尤度 L(p / qr , H) 、すなわち仮説 H0: & theta;= &theta0r のもとでデータが得られる尤度を最大にする仮説を選ぶこと にするのが、最尤原理のこの問題への適用である。
 さて、情報 H のもとでは、θ を母数とする密度関数が f(x /θ) であることがあらかじめわかっているとする。この時、標本 x1, ... , xN の得られる尤度は、データがうえの分布に従う母集団からの互いに独立な標本 であるとすれば、
(114)

と書ける。(60) 式は、x1, ... ,xN 同時分布 (joint distribution) を与えるもので、正確には 標本の 尤度関数 (likelihood function of the sample)、略して 標本の LF (LF of the sample) と呼ばれる。
 最尤原理からは、θ の取りうる値の範囲(値域)で、LF を可能な限り大きくする ような を選ぶのがよいことになる。 そのような は、 最尤推定量 (maximum likelihood estimator) と呼ばれる。


Eric's back icon

第6章 推定量とその性質

  6.1 母数と推定量

(4.1) 節で既に母数の概念を、統計的分布に関して導入した。しかし、一般には 母数は分布のそれに限定されるものではない。われわれが何らかの統計的モデルを 考えるとき、それを特徴づける未知数(パラメータ)のことを、統計学ではすべて 母数 (parameter) と呼ぶ。したがって、母数には (4.1) 節における何らかの 分布のそれであることもあるし、何らかの統計的モデルの未知数であることもある。
 いずれにせよ、統計学の基本的な課題は 観測値 (observation) としての 標本を手にしたとき、それを用いて標本が得られた母集団における未知の母数を 推定したり、母数についての何らかの帰無仮説が正しいかどうかを検討したり することである。後者は、検定の問題となる。
 一般に、このような課題における標本から作られる量(関数)のことを統計量 と呼ぶことは、既に (2.1) 節で述べた。そこで述べた をここでは s と書くものとする。もちろん、
(115)

であり、s は1つの統計量である。

さて、確率変数 X が平均 θ、で分散 σ2 に従うとすれば、 互いに独立なサイズ N の標本に対する確率変数の平均値 s は、

(116)

なる正規分布に従うので、母平均 θ の 推定値 (estimate) として の実現値 を用いることは、1つの合理的な方法と言える。 ここで、一般に s のような統計量が推定のために用いられる時、これを 推定量 (estimator) と呼ぶ。また、一般に何らかの母数をうえのような 1つの値で推定する方法を、点推定 (point estimation) と呼ぶ。

これに対して、母数をある区間に入る確率の言葉で推定する方法を 区間 推定 (interval estimation) と呼ぶ。 うえの s= については、

(117)

が成り立つことを用いて、母平均 θ の信頼度 100(1-α) % の 信頼区間 (confidence interval) は、

と書ける。ここで、zα は単位正規分布 N(0,1) の上側 点を指す。

  6.2 推定量の持つべき性質

標本にもとづき母数 θ の推定を行う場合、θ の推定量が どのような性質を持つことが望ましいであろうか。これについては、従来から 数理統計学の分野では幾つかの特性が提案されてきた。1つは、推定量または その期待値と、その母数との一致・不一致に関する特性である。2つ目は、推定量 の 精度 (precision) とりわけ、推定量の ばらつき (dispersion) に 関するものである。3つ目は、推定量の持つ情報量に関するものである。4つ目は、 推定量の、母数からのばらつきに関するものである。

第1の性質には、 一致性 (consistency) と 不偏性 (unbiasedness) の2つがある。前者は、推定量の値が 漸近的に (symptotically) (すなわち サンプル数が無限大になった時に)母数 θ に一致するかどうか、という 性質である。これに対して、後者は、有限のサンプル数の場合、すなわち 正確に (exact) 推定量の期待値が母数に一致するかどうかという性質 である。

第2の性質についても、 最小分散 (minimum variance、略して MV) 性に、 2種類がある。1つは、推定量の漸近的な最小分散性で、他方は有限サンプル の場合のそれ(この場合には、さらに、MV の場合と 最小分散限界 (minimum variance bound、略して MVB) の場合がある)である。漸近的な MV は、古典的、有限サンプルの場合は近代的な意味での 有効性 (efficiency) の定義である。

第3の性質は、推定量の持つ情報の多さに関するもので、 充足性 とか 十分性 (sufficiency) と呼ばれる。

第4の性質は、推定量の、母数からのばらつきの小ささであり、 最小平均 平方誤差 (minimum mean-square-error) である。

  6.3 一致性と不偏性

推定量 s の値が漸近的に母数 θ に等しい、すなわち 確率的に (θ に) 収束する (converge in probability or stochastically) ケースには2通りある。このことから、一致性にも2通り考えられている。 すなわち、1つは 弱い意味での一致性 (consistency in the weak sense) で、

任意の ε > 0 に対して、サンプル数が無限大の時、
(118)

もう1つは、 強い意味での一致性 (consistency in the strong sense) で、

(119)

いずれの場合も、一致性を持つ推定量は、 一致推定量 (consistent estimator) と呼ばれる。

例えば、(2.4) 節のチェビシェフの不等式を推定量 に対して 適用すると、

(120)

が得られるので、N が無限大の時 と なり、したがって s = は母平均の一致推定量である。

しかし、一般にある s が一致推定量であれば、例えば

もまた一致推定量となる、すなわち一致推定量は一意的には定まらない。そこで、 有限のサンプル数に対して言及できる推定量の望ましい特性を考える必要性が 生じる。一般に、推定量 s の期待値が母数 θ に等しいとき、この推定量は 不偏性を持つといい、そのような推定量は、 不偏推定量 (unbiased estimator) と呼ばれる。正確には:

(121)

ならば、s は母数 θ の不偏推定量であるという。

  6.4 有効性と最小分散性

推定量 s の精度は、しばしばその標本分散

(122)

で表される。推定量の多くは、中心極限定理により、漸近的には正規分布になる ので、n \to \infty$ の時、分布は平均と分散の2つの母数により決まる。 古典的には、漸近的に最小分散になるような推定量は、有効性があるといい、 そのような推定量を、 有効推定量 (efficient estimator) と呼ぶ。もっとも、 最近では漸近有効性も、1次、2次、3次等が区別されている。

いずれにせよ、古典的有効性が推定量の漸近的特性に関するものであるのに対して、 有限のサンプルの場合にも推定量 s の標本分散、すなわち精度に最小値が存在 することがわかったのは、比較的新しい。

Rao (1945) や Cram\'er (1946) により証明された クラメール・ラオの 不等式 (the Cram\'er-Rao inequality)

(123)

は、推定量 s が母数 θ の関数 τ(θ) の不偏推定量である 場合に、推定量の最小分散限界 MVB を与える。

ここで、(123) 式の L は、互いに独立で同一な分布に従う (independent and identically distributed, 略して i.i.d. ) 母集団からの標本 x1, ... ,xN の尤度関数で、母数 θ のもとでの x1, ... ,xN の密度を f (x1 /θ), ... , f(xN / θ) と すれば、 5.4 節の (114) 式として表せる。また、τ(θ) は、推定 量 s の期待値すなわち、

(124)

である。

(123) 式は、 正則条件 (regularity conditions) と呼ばれるかなり 一般的な条件下で成り立つことがわかっている。この条件下では

が成り立つので、(123) 式は

(125)

とも書ける。

(125) 式の特別な場合は、τ(θ)=θ すなわち推定量 s が θ の不偏推定量の場合で、この時には、

(126)

が成り立つ。ここで、

(127)

は、標本における 情報量 (mount of information) と呼ばれる。この式から 明らかなように、推定量 s の最小分散限界は標本における情報量が増えると、 小さくなる。

MVB は、常に存在するとは限らないが、それより大きいところの最小分散 MV を持つ推定量は存在し、一意的に定まることがわかっている。この MV 推定量 (minimum variance estimator) は、近代的な意味での 有効推定量と言える。

  6.5 充足性(十分性)

これまで述べてきた推定量の持つべき特性とは異なり、推定量の持つ情報量 に関する特性が充足性(十分性)の概念である。

正確には、

推定量 s は、母数 θ について、サンプルのすべての情報を含むとき、 充足性(十分性)がある、

という。また、そのような特性を持つ推定量は、 充足(十分)推定量 (sufficient estimator) と呼ばれる。

一般に、ある推定量が充足(十分)推定量であるかどうかの判定には、つぎの 分解基準 (factorization criterion) もしくは ネイマン基準 (the Neyman criterion) を用いる。

(128)

  6.6 尤度比検定

 一般に、サイズ N の標本 x1, ... ,xN から、それらが得られた 母集団の未知数すなわち母数 θ についての何らかの仮説の検定を行う 問題を考えてみよう。ここでは、N 個の標本も母数も共にベクトル量である一般形 を考えるものとする。

さて、母数 θθ=(θtr , θts)t な る列ベクトルとする。また、r \geq 1, s \geq 0$ であるとする。さらに、 5.4 節 で述べた標本の尤度関数を

(129)

とする。 5.4 節では、標本はベクトル量でなくスカラー量であったことに注意せよ。

この時、帰無仮説

(130)

を、対立仮説

(131)

に対して検定したいとする。うえの帰無仮説は、もし s =0 ならば単純仮説、 もし s \geq 1$ ならば、複合仮説である。

尤度比検定(likelihood ratio test) とは、一般につぎの尤度の比の 分布を用いて上述の帰無仮説を検定する方法である:

(132)

ここで、分母は尤度

の無条件最大値を与える ML 推定量 、 一方分子は (75) 式の帰無仮説が正しい時の尤度

の、 θsの条件付き最大値を与える ML 推定量 を 必要とする。

ただし、特定の場合を除き、一般的には尤度比の正確な分布はわかっていないので、

が帰無仮説のもとで、漸近的に自由度 r の χ2 -分布に従うことを利用し て検定を行う。ここで、r は全母数 k =r + s から局外母数の数 s を差し引いた ものである。 Eric's back icon

Eric's color bar icon