統計学で正規分布はなぜ大切か? 元茨城学習センター所長 塩見正衛
投稿日: 2012/02/23 6:12:40
統計学では、データ(標本)が正規分布に従っていることが重視されてきた。なぜかというと、それは、平均の差を調べるz検定やt検定、分散の違いを見るχ2乗検定やF検定で用いられるt分布やχ2分布、F分布は正規分布のデータに対応して定式化されているからである。したがって、厳密にいえば、正規分布に従っていない母集団から得られた(抽出された)データに対しては、上記の統計的検定を用いることができない。また、平均や分散の信頼区間も、元のデータが正規分布に従っていないならば、「偏った値になってしまう可能性がある」と思われるに違いない。そして、実験や調査で得られたデータがいつも正規分布に従っていることはありえない、と考える人が多いでしょう。
しかし、個々のデータを比較するときは問題になるが、平均を比較するときには個々のデータが正規分布から外れていても、問題は起こらない。そのことについて説明を加えたい。
「中心極限定理」と呼ばれている統計理論によって、「平均の計算に用いるデータ数が多いほど、平均は正規分布に近ずく」(概略の意味)ことが保証されている。これは定理であるから厳密に証明されてる。ここでは、実例で、平均の頻度分布が正規分布に近くなることを「視覚的に」見てみよう。
まず、このことを示すために、正規分布とは非常に異なった分布をもっている変数を考える。そのような変数から得られるデータでも、平均の頻度分布は、平均の計算に用いるデータ数nが大きい時には、正規分布と見なせる分布になる。t検定では、平均の比較を行うのであるからこの理論は大変役立つ。また、分散分析では、一見分散の比較を行っているように見えるけれども、実は処理間の平均や、品種間の平均の比較を行っているのだから、やはり中心極限定理のお世話になっているのである。
さて、硬貨の例を取り上げよう。硬貨を投げて表が出ると0、裏が出ると1とする。したがって、このような作業を何十回、何百回行っても、得られる数字は0か1であるから正規分布からほど遠い。ところで、今このような硬貨投げの試行を2回ずつ区切って平均を求めると、(0, 0)、(0, 1)、(1, 1)の3種類の対が得られ、それぞれの対の平均は、0、0.5、1となる。もし、すべての試行が独立(どの試行も以前の試行の影響をうけない)なら、平均が0、0.5、1となる試行の頻度は1: 2: 1の比になることが期待できる。さて、このような硬貨投げの試行を3回ずつ区切って平均を求めると、(0, 0 ,0)、(0, 0, 1)、(0, 1, 0)、(0, 1, 1)、(1, 0, 0)、(1, 0, 1)、(1, 1, 0)、(1, 1, 1)の8 通りの結果が得られるが、3個の0あるいは1からなる( )内の数字の平均は、0、0.3333、0.6666、1の4種類になり、それぞれの頻度はほぼ1: 3: 3: 1になるであろう。次には、4個ずつの試行の平均、5個ずつの試行の平均というように平均の計算のための試行から得られた数字(0か1)を増やしていく(図を参照)。
このような過程を続けて、もっと大きなデータ数の平均を計算していくと、どのようになるか。本稿のために行ったシミュレーションの結果は下図のとおりである(ExcelのVisual Basicで計算)。n = 10になると、左右対称に近ずくことが分かる(図を参照)。この場合のように、(0, 1)データの場合には、比較的大きなnにならないと正規分布に近づかないけれども、一山型で連続数でできている分布から得られたデータの平均は、もっと小さいnでも正規分布で近似できる。