文系だって統計がしたい

文系大学生を想定して統計学の解説をします。

【記述統計】代表値(1)ー中央値ー

記述統計

たとえば私が100点満点のテストで75点を取ったとしましょう。

これは高得点だと言えるでしょうか。

 

おそらく誰もが思ったように、これだけの情報では高得点ともそうでないとも言えません。

たとえば、私以外の全員が20点しか取れなかったのであればまぎれもなく高得点でしょうし、他の人が全員100点だったら高得点ではないでしょう。

 

このように、あるデータがあったとしてそれ単品では評価を下すことは通常困難で、ふつう収集したデータについての情報を明らかにし、傾向や性質などを把握した上で判断します。このような統計の手法を記述統計と言います。

 

代表値

 記述統計の上で、集めたデータを特徴づける量を考える必要性は想像に難くないでしょう。

分布の全体をひとつの値で特徴づけたその値を代表値といいます。

代表値が与えられたら、私が取った75点という成績がいいのか悪いのかの判断の材料になるでしょう。

 

では、どのような値を代表値に設定するのが良いのでしょうか。

 

たとえばある値tがあって、これが各データと最も近いとすれば、これを代表値とするのが適当でしょう。

それぞれのデータとの近さが最も優れているとき、直感的には

|x_i-t|

の値が元のデータ全体を総合した時に最も小さいと言い換えることができそうです。ここで、|a-b|は数直線上のa,bの距離を表したのでした。

データ全体を総合した時に最も小さいとは、すなわち各iについて総和をとればよいので

\displaystyle\sum_{i=1}^n|x_i-t|

 を計算した結果が最も小さくなるようなtを代表値に設定すればよさそうです。

 

中央値

5人が同じテストを受けて、それぞれの点数が

20, 45, 75, 80, 90

 だったとしましょう。

このとき、仮に代表値を最低点と最高点の真ん中の値55に設定したとしましょう。

そうすれば、\displaystyle\sum_{i=1}^n|x_i-t|の値は

|20-55|+|45-55|+|75-55|+|80-55|+|90-55|=125

 しかし、3番目に高い得点である75を代表値に選べば

|20-75|+|45-75|+|75-75|+|80-75|+|90-75|=105

 となり、より小さくなります。

これを様々ためしてみると、どうやら75を選んだ時が最も小さくなるようです。

 

では、なぜそうなるのでしょうか。

|20-55|+|45-55|+|75-55|+|80-55|+|90-55|

と、

|20-75|+|45-75|+|75-75|+|80-75|+|90-75|

 について、青く塗った部分の和について考えてみましょう。

上の式の青い部分の和を計算すると105になります。

そして、下の式の青い部分の和も計算すると105になります。

これはtの部分に何を入れても105になります。

この絶対値の計算はx_itの距離だったので、tを動かせば距離が短くなったり長くなったりします。

tを大きくすれば、上2つのデータとの距離は短くなりますが、その分だけ下2つのデータとの距離は長くなります。その結果相殺されてどれだけtを変えても青い部分の和は105から変わらないのです。

 

そうだとすると、あとは小さい順に並べて丁度中央にあるデータにtを設定すれば、青く塗らなかった部分が0になり、\displaystyle\sum_{i=1}^n|x_i-t|が最小になります。

 

また、データの個数が偶数個の時は中央にあるデータが2つ生じますが、どちらをtに代入しても同じ値になります。

しかし「どちらでもいい」という一つに定まらないような取り決めは不便なので、その場合は中央にあるデータの丁度真ん中の値を中央値と定めます。

 

定義 中央値

収集したデータをx_1\leq x_2\leq\cdots\leq x_nとなるように並び替え、番号をふったとき、その中央値Med

nが奇数なら

Med:=x_{\frac{1+n}{2}}

nが偶数なら

Med:=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}

と定める。