物理を解説 ♪
ツイッター用のシェアボタン フェイスブック用のシェアボタン はてなブックマーク用のシェアボタン ライン用のシェアボタン
ツイッター用のシェアボタン フェイスブック用のシェアボタン はてなブックマーク用のシェアボタン ライン用のシェアボタン

不偏分散の疑問

式を使う以外の方法でも考えてみたが、本質ではなかったから書くのはやめた。
作成:2016/12/27

期待値の性質

前回の記事の数学的な補足である.不偏分散を計算するときにn-1で割るのはなぜなのかという話である.

大抵の統計の入門書では軽く誤魔化しているので「なぜなのか」とすごく気になってしまう人も多いのではないかと思っていたが,前回の話を読んでしまうと,「ああ,数学的に多分そうなんだろうな」と思えてきて,もうあまり気にならなくなっていたりは・・・しないかな

本題に入る前に少しだけ準備をしておきたい.前回は期待値というものを母集団の平均値という意味だけで紹介したのだった.今回はこの計算を数学的な道具として積極的に使ってみたいので次のように表現してみる. 数式 これは変数xが出現率f(x)に従って確率的に得られるときの期待値を意味している.もしE[y]というのが出てきて,yの値の出現率の分布がg(y)である場合には次のような意味になるものだとする. 数式 もしE[x+y]というものが出てきたとすると,これは出現率f(x)であるところからたまたま引いたxという値と,出現率g(y)であるところからたまたま引いたyという値の和を作る作業を何度も何度も行い,それら全ての平均値を意味するようにしたい.これを計算するには,x=x_{0}かつy=y_{0}という値を拾う確率密度がf(x_{0})g(y_{0})であることを使ってやればいい. 数式 結果だけ見ると,なんとまぁ単純な関係である.変形の途中で,それぞれ単独の確率密度だけで全範囲を積分すると 1 になることを使っている.さらに定数a,bなどを入れて拡張してやろう.同様の計算をしてやることで,次のような関係が成り立っていることも言えるだろう. 数式 こんなにきれいな関係が成り立っているのを見ると,E[xy]というものがどうなるかというのも気になってくる.実はこれも同じような考えで簡単に計算ができる. 数式 非常に分かりやすい関係だ.さらに考えると定数aを使って次のような関係も言える. 数式 これは毎回確実にaという定数値が出る場合の期待値だということで受け入れよう.

さて,母分散Vというのは次のような定義であった. 数式 前回と少し違っているのは母分布の期待値をEではなくμで表すことにしたからである.今回はE[x]を多用するので区別しやすくしておいた.この式は次のように表現することも出来るだろう. 数式 ところがこの式の右辺を先ほどの性質を使ってバラそうとするとおかしなことが起こる. 数式 この変形はやってはいけないのだ.上で説明した性質はxyとがそれぞれ独立に得られるものだという前提を使っている.ところが今回はxの値を得て 2 乗した.同じ値どうしを掛け合わせたことになる.つまり,独立に得た二つの値を使っているという条件が満たされていないのである.

この辺りのことを気をつけながら,今回の本題に入っていくことにしよう.


なぜ不偏分散は n-1 で割るのか

知りたいのは「なぜ不偏分散はn-1で割るのか」ということだった.不偏分散Wは次のように定義されていたのだった. 数式 mn回の実験値の平均値である.これも混乱を防ぐために,前回とは記号を変えてある.

さて,疑問を言い換えれば,「なぜn-1で割るとうまくいくのか」ということであり,さらに言い換えれば,不偏分散Wの期待値E[W]が母集団の分散に等しいのはなぜか,ということだ.式で表すと次のようになる. 数式 この式が成り立つことが示されれば,納得するしかない.では左辺の変形を進めよう. 数式 ここらで,カッコ内の二つの項を分けて説明しよう.まず最初の項は次のような変形が可能だ. 数式 説明は要らない気がしてきた.x_iは測定値を意味しているが,母集団の期待値μとの差を使って期待値を計算しているのだから,それは母分散Vと同じ値になるのは当然だ.

次の項に含まれるmn回の測定の平均値だという定義に書き戻して変形してやることにする. 数式 とてもややこしい感じがしてきたが,ここが今回の一番の山場で,考えるのが面白いところだ.ここでijのあらゆる組み合わせの和を考えている.このijn回の測定の中で何番目に取得したデータであるかという意味だ.先ほど分散の式をバラそうとしておかしなことが起こってしまった場面を思い出してみてほしい.i≠jならば,i番目に取得した測定値とj番目に取得した測定値は独立しているから,先ほどのような変形をしてもいいのである.そして先ほども見たように,値は 0 になる.i=jとなる場合だけは残さなくてはならない.それで,続きは次のようになる. 数式 さあ,これらを元の式に戻して結果を見よう. 数式 予告通りである.めでたし,めでたし.


なぜ不偏分散をnで割ったものの期待値が平均値の分散になるのか

次に考える疑問を式で表してみよう.不偏分散Wを測定回数nで割ったものは前回の記事ではXと表していたのだった.もしn回の測定を何度も何度も繰り返すと,そのたびに違った値のXを得るだろう.その期待値はE[X]と表せる.それが平均値mの分散に等しいというのである. 数式 状況を式に表そうとしてとっさにV_mという記号を作ってしまったが,この意味をはっきりさせないといけない.平均値の分散とは何だっただろうか.n回セットの測定を何度も何度も繰り返すたびに,n個のデータを使って平均値を算出したものがmであり,その値は毎回異なっている.その平均値mばかりを集めて作った平均値と,毎回の平均値との差を 2 乗して足し合わせて,全部の平均値の個数で割った値である.平均値の個数は有限ではなく,無限回行うのである.

これをどうやって式で表そうか.平均値ばかりを集めて作った平均値というのは,母集団の平均値μに等しくなるだろう.E[m]=μである.mはガウス分布に従って出現する変数なのだった.ガウス分布に従って出現する値mを使って(m-μ)^2を計算して,その期待値を算出するのだから, 数式 と表せば良いだろう.上の方でV=E[(x-μ)^2]と表したのと同じ原理だ.ところがこの右辺は,先ほどの疑問を解決するための式変形の途中で既に出てきている.ちょっと探してみてほしい.mを定義に書き戻して変形してやることにする」と言っていた部分だ.次のような結論が出ているはずである. 数式 さらに先ほど解決した疑問はE[W]=Vという式で表されていたから,右辺のVE[W]で置き換えよう.ここまでの変形を一気に書き並べると次のようになる. 数式 V_mE[X]になることが示せてしまった.疑問はあっけなく解決だ.めでたし,めでたし.


なぜ X が平均値の分散に近い値だと信じていいのか

E[X]が平均値の分散V_mに等しいということは導き出せた.しかしn回きりの測定で得られるのはE[X]ではなく,Xである.このXがなぜV_mに近い値になっていると信じられるのかというのが最後の疑問だ.

n回セットの測定ごとに得られるXの値はどのような分布で出現するのだろうか.それが分かれば疑問は解決する.ある値の周辺でとても狭く尖った分布になっていれば,滅多なことでは大きくハズレた値は得られないはずで,信用ができると言えるだろう.

その辺りを探るヒントはないものかと探し回ってみたところ,やっとのことで使えそうなヒントが見付かった.\color{red}{χ^2}(カイ2乗)分布」と呼ばれるものだ.これは統計学の教科書に必ずと言っていいほど出てくるものだが,今から調べようとしていることとは異なる目的で紹介されることが多いもので,その存在に気付くのが大変遅れてしまった.

これは標準正規分布に従って独立にn個の変数x_iを得て 数式 という値を計算したときの,このzの分布がどうなっているかを意味するものであるらしい.標準正規分布というのは 0 のところにピークがあるような標準偏差が 1 のガウス分布のことである.これは大変に都合がいい.なぜなら,我々の今の目的からすると,n回の測定を行ったときに,毎回母集団の期待値μを引いてから 2 乗して和を取ることに相当するからで,ピークからの差の 2 乗和という意味になっている.これをn-1で割れば不偏分散の意味になるし,さらにnで割れば,今知りたいXになるわけだ. 数式 ただ少し違うのは,我々はこれまで母集団の分布がガウス分布だとは仮定してこなかったし,標準偏差も 1 ではなかった.しかし,標準偏差の違いはグラフの横幅のスケールが変わるだけの話であるし,今の目的はXの分布の様子がどうなっているかが大雑把に確認できればいいだけなので,母集団の分布がガウス分布だと仮定して話を進めることにしよう.

このカイ二乗分布の式を求めることはここではやらない.式を見てもらえば今はそこまで手を出さない方がいい理由が分かってもらえるだろう. 数式 ガンマ関数というちょっと特殊な関数まで使われているが,最初の分数の部分は全体を積分したときに 1 になるようにするための調整部分だからあまり気にすることもない.zは負の値にはなりようがないので,z<0の領域ではh(z,n)=0である.

カイ二乗分布のグラフ

nが増えるほどzが増えるのは当然なので,だんだんと横に広がっている.h(z,n)zで微分して 0 になるところを求めてみれば分かることだが,ピークの位置はn-2であり,だんだん右へと向かっている.さあ,これをn-1で割ることで不偏分散Wの分布のグラフに変えてしまおう.

不偏分散の分布のグラフ

n=1の曲線は,0 での割り算になるので存在しない.これは分布のグラフなので全範囲で積分したときに 1 になるようにグラフの高さをそれぞれ変えるべきだが,線が重なって分かりにくくなるのでそれはやっていない.雰囲気を見てもらいたいだけなのだ.測定回数nが増えるほどピークの横軸が 1 に近付く.これは元々標準偏差が 1,つまり分散も 1 であるような分布から抜き出してくるという設定なので当然だ.元々ピークがn-2になるところをn-1で割って縮めているので,(n-2)/(n-1),すなわち1- 1/(n-1)となり,確かにそうなることが分かるだろう.

さて,我々は不偏分散Wをさらにnで割ってXを算出したのだった.次のグラフは横軸のスケールを1/nに縮めたものである.つまり,それぞれの曲線ごとに縮め方を変えるのであり,nが大きいほどギュッと縮めてある.左へ寄り過ぎるグラフになるので,原点近くの細かい挙動を観察しやすいように全体的に拡大してある.

不偏分散の分布のグラフのスケールを変えてみた図

これは偶然に頼ってXの値を一度だけ得るときの分布を表していると言えるだろう.確率分布を表すのなら各曲線が作る面積が 1 になるようにしておくべきだが,相変わらず各曲線の係数の調整はしていない.

本当に見たければ各自でやってみてくれ.

nが大きいほどピークが左へ寄る傾向が見えてきている.当たり前といえば当たり前だが,この性質を見たかったので一安心だ.しかしグラフのピークから右側への分布がなだらかに長く続くところが気になる.これでは大き過ぎる値を引いてしまう可能性が高いことになるからだ.n=5くらいになるとそれもあまり気にならないくらいにはなってくるけれども,一度気になってしまったものは気になって仕方がない.

しかし,我々が実際に誤差σとして併記するために使うのは√Xなのであった.この平方根を考慮してグラフを書き直してやったら右側への坂道も引き締まるのではなかろうか.横軸が平均値の標準偏差σになるように変更してやろう.

横軸が標準偏差になるように不偏分散の分布のグラフのスケールを変えてみた図

これは元々の横軸の 4 の辺りの確率密度を 2 の辺りに,9 の辺りの値を 3 に,16 の辺りを 4 に来るように書き直しただけである.つまり,ぐっと左に寄ってくることになる.左に詰まって見にくくなったので,またスケールを変更して原点付近を拡大してある.

この結果はなかなか良いのではないだろうか左右対称に近い感じに引き締まってきた.今まではn=6までの曲線しか描いてこなかったが,ここではさらに増やすとどうなるかを書き加えてある.nが増えるほどグラフのピークが左へ寄っていっているのは標準偏差が実際に小さくなって行っているのであり,これは測定回数を増やすほど真の値を正確に推定することができるようになっていっていることを意味する.また,nが増えるほど曲線の横幅がだんだんと狭くなっていっていることも分かるだろう.もしちゃんと全体の積分が 1 になるように調整すればnが大きいほど上へ鋭く突き抜けた形に描かれるはずで,ここではやらないけれども,もしそれを見ればイメージも変わるはずだ.

我々が本当に欲しいのは,偶然に頼って得るXではなく,それを無限に繰り返して得られるE[X]であり,もしできるならσ=√(E[X])として測定値の平均の値に併記したいのである.現実的には無理だからσ=√Xを仕方なく使っているのである.このグラフでは曲線が左右対称ではないから多少は違うけれども,ピーク辺りが√(E[X])を意味していると思われる.そこで気になるのは,確かに曲線の横幅はnが増えるほど減っていくけれども,それは√(E[X])に比べてどうなのかということである.得たいと思っている値に比べてのばらつき具合はどう変化しているだろうそこで,ピークの位置が揃うように曲線ごとの横幅の比率を変えてみよう.

不偏分散の分布のグラフのスケールをさらに変えてみた図

n=2の曲線にはピークがないので消した.nが大きいほど,実際よりも横に大きく引き伸ばしてあることになるのだが,それでも横幅が徐々に狭くなっていっているのが分かる.ピークの位置がおおよそ√(E[X])だろうと考えられ,そこが本当にほしいσの値だが,そこから何倍も外れた値が出てしまう可能性はとても小さくなっていっている.n=5では多少心配だが,n=10くらいならもっと安心できる.

記事を書く前はもっと鋭い形になることを期待していたのだが実際にやってみるとそうでもなかった.測定回数を増やしても急に幅が狭まるわけでもないし,これくらいの幅があることを覚悟して使うしかないのだろう.桁は合っている,と言えるくらいのものだ.平均値の標準偏差は測定回数に依存するようなものであり,物理的な対象に関する値ではない.測定の質を表すデータである.大体の目安を意味する数字であったのだからこれくらいでも仕方ないのだろう.



趣味の物理学書店

趣味で量子力学2の広告バナー