【記述統計】代表値(1)ー中央値ー
記述統計
たとえば私が100点満点のテストで75点を取ったとしましょう。
これは高得点だと言えるでしょうか。
おそらく誰もが思ったように、これだけの情報では高得点ともそうでないとも言えません。
たとえば、私以外の全員が20点しか取れなかったのであればまぎれもなく高得点でしょうし、他の人が全員100点だったら高得点ではないでしょう。
このように、あるデータがあったとしてそれ単品では評価を下すことは通常困難で、ふつう収集したデータについての情報を明らかにし、傾向や性質などを把握した上で判断します。このような統計の手法を記述統計と言います。
代表値
記述統計の上で、集めたデータを特徴づける量を考える必要性は想像に難くないでしょう。
分布の全体をひとつの値で特徴づけたその値を代表値といいます。
代表値が与えられたら、私が取った75点という成績がいいのか悪いのかの判断の材料になるでしょう。
では、どのような値を代表値に設定するのが良いのでしょうか。
たとえばある値があって、これが各データと最も近いとすれば、これを代表値とするのが適当でしょう。
それぞれのデータとの近さが最も優れているとき、直感的には
の値が元のデータ全体を総合した時に最も小さいと言い換えることができそうです。ここで、は数直線上のの距離を表したのでした。
データ全体を総合した時に最も小さいとは、すなわち各について総和をとればよいので
を計算した結果が最も小さくなるようなを代表値に設定すればよさそうです。
中央値
5人が同じテストを受けて、それぞれの点数が
だったとしましょう。
このとき、仮に代表値を最低点と最高点の真ん中の値に設定したとしましょう。
そうすれば、の値は
しかし、3番目に高い得点であるを代表値に選べば
となり、より小さくなります。
これを様々ためしてみると、どうやらを選んだ時が最も小さくなるようです。
では、なぜそうなるのでしょうか。
と、
について、青く塗った部分の和について考えてみましょう。
上の式の青い部分の和を計算するとになります。
そして、下の式の青い部分の和も計算するとになります。
これはの部分に何を入れてもになります。
この絶対値の計算はとの距離だったので、を動かせば距離が短くなったり長くなったりします。
を大きくすれば、上2つのデータとの距離は短くなりますが、その分だけ下2つのデータとの距離は長くなります。その結果相殺されてどれだけを変えても青い部分の和はから変わらないのです。
そうだとすると、あとは小さい順に並べて丁度中央にあるデータにを設定すれば、青く塗らなかった部分がになり、が最小になります。
また、データの個数が偶数個の時は中央にあるデータが2つ生じますが、どちらをに代入しても同じ値になります。
しかし「どちらでもいい」という一つに定まらないような取り決めは不便なので、その場合は中央にあるデータの丁度真ん中の値を中央値と定めます。
収集したデータをとなるように並び替え、番号をふったとき、その中央値を
が奇数なら
が偶数なら
と定める。