【記述統計】代表値(2)―平均値、合成変数の平均、仮平均―
平均値
前回(【記述統計】代表値(1)ー中央値ー - 文系だって統計がしたい)は、妥当な代表値を考えるために
が最小となるようなを考えて、中央値というものを設定しました。
5人のテストの点数
の中央値はです。
しかしこれはの4つのデータとある程度近く、代表値としてよく表せている気がしますが、最低点のとはも離れています。
よって、大きく外れた値も反映させた代表値を考えたいというモチベーションが湧いてきます。
そこで、の代わりに
を最小化することを考えます。
2乗した理由は、より大きく外れた差の影響力を増幅させるためです。小さい数を2乗させるより大きい数を2乗させる方がより大きく増加します。
ここで、天下り的ですが
と定義される量を考えます。これを用いると
第2項でを挿入していますが、これは結局なので上の等式が成り立ちます。
これを展開して
ここで第2項を計算すると
となって消えるので、
となります。をうまく設定してこれを最小化するには、右辺の第2項がになるようにすればよく、結局
とすればよさそうです。
このを平均値といい、これは中央値よりも、分布の全体から大きく外れた値(はずれ値)を反映させた代表値となります。
平均値は中央値と比べてはずれ値の影響を受けやすいことは十分に考慮されるべきことです。
たとえば10人の友だちグループのうち、9人がお小遣いとして毎月2,000円をもらっていて、残りの1人が50,000円をもらっているとしましょう。この10人のお小遣いの平均値を計算すると
となります。 このような場合に平均値を分布の代表とするのは適切かと言われると微妙です。中央値と平均値両方を比べることで、どのような分布なのかを考える必要があります。
合成変数の平均
ある学校で数学の単元テストと、その学期の期末テストを行ったとしましょう。
単元テストはあくまで定着度合いを確認する目的なので、期末テストの配点を重くして成績をつけることにします。その重みづけの配分を2:3で行うとき、番目の生徒の成績は、単元テストの得点を、期末テストの得点をとすると
と得点化されます。
このように変換した新たな変数の平均値は、のデータを用いて表せないのでしょうか。
証明
平均値の定義によって
これは、平均値の計算が線形であることを意味します。
さらに、次が成り立ちます。
証明
番目の集団の番目のデータをと書くことにすると、の定義によって
物理を勉強したことのある方なら、これは質量が、座標がである個の質点からなる物体の重心の座標となっていることがわかると思います。
この定理によって、たとえば人数の異なる複数のクラスに実施したテストの全体の平均点が各クラスの平均点と人数をもとに算出できます。
仮平均
証明
合成変数の平均に関する定理により直ちに導かれる。
これはたとえば、5人に実施したテストの点数が
であったとき、定義に従って平均値を計算しなくても、だいたいのあたりに平均があるだろうと予想して、各データからを引いた新たなデータ
の平均値を計算し、最後にを足せば平均値が求まるということです。この場合は
なので、平均点はであることがわかります。