統計雑記

正規分布の標準化
 正規分布を標準正規分布に変換すること。正規分布は平均と分散という二つのパラメータによって
 N(μ,σ^2)
と表現される。この分布の確率密度関数は、
 f(x) = 1/(2πσ^2))^1/2 * exp{-(x-μ)^2 / 2σ^2}
であり、累積分布関数(あるいは単に分布関数と例題では表現されていた)はこの密度関数を[-∞,α]で積分した形で与えられる。
 標準正規分布は平均0、分散1の正規分布であり、
 N(0,1)
と表現される。
 標準化は、確率変数の変換をX->X'とすると
 X'=(X-μ)/σ
という操作によって行われる。
 標準正規分布という共通化によって、複雑な計算を経ることなく知りたい確率を求めることができる(分布表がある)。

・一様分布の分散は確率変数の値の幅で積分すればわかる。たとえば平均0で値の幅が[-1/2,1/2]だとすれば、∫{(x-0)^2}dxをこの範囲で積分して分散は1/12になる。

中心極限定理
 ある母集団から無作為に抽出された標本の平均は標本数を大きくすると真の平均に近似できる。中心極限定理は標本の平均と真の平均の誤差を扱うものである。
 母集団が同一の分布に従い、独立であり、平均と分散が有限であるとき、それらの標本平均と真の平均の誤差が正規分布に従う、というのが中心極限定理の意味すること。
 wikipediaに書いてある式をそのまま引っ張ってくると、
 平均μ、分散σ^2の独立分布の確率変数列X_k(k=1,2,.)..に対し、
 Sn:=Σ[k=1~n]X_k
とすると、
 P(Sn-nμ/(n^(1/2)*σ) <= α) -> 標準正規分布N(0,1)の分布関数(積分:-∞~α)
となる。
 これ、正規分布化だけじゃなく一気に標準化までしてるからわかりにくい気がする。
 調べた感じ、定理として正規分布になることはもちろん共通に言われているけど、どのような分散と平均の正規分布になるかは記述に差異がある。wikipediaでは上述のように一気に正規化してる。他のページでは、元の分布の平均μと分散σ^2と標本数nを用いて、N(μ,(σ^2)/n)と書いているところが多い。標本の総和に注目するなら、N(nμ,nσ^2)でも正しい(参考:中心極限定理不要論(中心極限定理を超えて))。下の例題ではそう解いてる。
 この違いは、標本の平均と真の平均の誤差に着目するか、標本の総和と真の総和の誤差に着目するかの違いだから、どちらが正しいということもない。

 整理する。標本数nと標本平均μ'と分散σ^2に対して正規分布化を施すとき、
総和に着目すると:
 平均nμ、分散nσ^2の正規分布N(nμ,nσ^2)
標本に着目すると:
 平均μ、分散(σ^2)/nの正規分布N(μ,(σ^2)/n)
になる。分散は、直観的には「総和のときは分散が標本で増幅される」「標本ひとつひとつのときは分散が総数で小さくなる」と考えれば良いと思う。数学的には少しすっきりしないのだけど、この定理自体が証明できないとすっきりしないということがわかって、とりあえず保留することにした。

中心極限定理の例題
 ということで例題を解く。平均が0の場合は分散の値だけが変わっているように見えるから、考えるにあたって混乱してしまった(かなり時間食った)。

 上で書いたような区間[-1/2,1/2]に値をとる確率変数Xをもつ一様分布について考える(この分布の平均は0、(x^2を区間で積分して)分散は1/12になる)。この分布から得られる標本数120000個の確率変数列X_kの和の絶対値が100に収まる確率を求めたい。

 確率変数列の和は、中心地極限定理より正規分布に従う(もう少しちゃんと書くと、真の平均が0なので、その誤差は確率変数列の和の大きさに等しい。)。この正規分布は平均0、分散は(1/12)に標本数をかけた10000になる(分散の表現の差異については上記の中心極限定理の説明を参照)。つまり、知りたい確率は
 Prob{-100 <= Y <= 100}, Y in N(0, 10000)
である。ここでYはN(0,10000)の確率変数であり、Y = Σ[k=1,120000] X_k。
 さらにこの正規分布を標準化する。標準化したあとの確率変数をY'とすると、標準偏差は10000^(1/2) = 100なので、
 Y'=(Y-0)/100
で単純に求めることができる。したがって知りたい確率は
 Prob{-1 <= Y' <= 1}, Y' in N(0,1)
となる。あとは標準正規分布の累積分布関数Φ(x)の近似値がΦ(1)=0.84と与えられているとして、平均軸から[-1,1]に含まれる割合を考えればよく、
 2(Φ(1) - 1/2) = 0.68
が答え。