【記述統計】代表値(2)―平均値、合成変数の平均、仮平均―
平均値
前回(【記述統計】代表値(1)ー中央値ー - 文系だって統計がしたい)は、妥当な代表値を考えるために
が最小となるようなを考えて、中央値というものを設定しました。
5人のテストの点数
の中央値はです。
しかしこれはの4つのデータとある程度近く、代表値としてよく表せている気がしますが、最低点のとはも離れています。
よって、大きく外れた値も反映させた代表値を考えたいというモチベーションが湧いてきます。
そこで、の代わりに
を最小化することを考えます。
2乗した理由は、より大きく外れた差の影響力を増幅させるためです。小さい数を2乗させるより大きい数を2乗させる方がより大きく増加します。
ここで、天下り的ですが
と定義される量を考えます。これを用いると
第2項でを挿入していますが、これは結局なので上の等式が成り立ちます。
これを展開して
ここで第2項を計算すると
となって消えるので、
となります。をうまく設定してこれを最小化するには、右辺の第2項がになるようにすればよく、結局
とすればよさそうです。
このを平均値といい、これは中央値よりも、分布の全体から大きく外れた値(はずれ値)を反映させた代表値となります。
平均値は中央値と比べてはずれ値の影響を受けやすいことは十分に考慮されるべきことです。
たとえば10人の友だちグループのうち、9人がお小遣いとして毎月2,000円をもらっていて、残りの1人が50,000円をもらっているとしましょう。この10人のお小遣いの平均値を計算すると
となります。 このような場合に平均値を分布の代表とするのは適切かと言われると微妙です。中央値と平均値両方を比べることで、どのような分布なのかを考える必要があります。
合成変数の平均
ある学校で数学の単元テストと、その学期の期末テストを行ったとしましょう。
単元テストはあくまで定着度合いを確認する目的なので、期末テストの配点を重くして成績をつけることにします。その重みづけの配分を2:3で行うとき、番目の生徒の成績は、単元テストの得点を、期末テストの得点をとすると
と得点化されます。
このように変換した新たな変数の平均値は、のデータを用いて表せないのでしょうか。
証明
平均値の定義によって
これは、平均値の計算が線形であることを意味します。
さらに、次が成り立ちます。
証明
番目の集団の番目のデータをと書くことにすると、の定義によって
物理を勉強したことのある方なら、これは質量が、座標がである個の質点からなる物体の重心の座標となっていることがわかると思います。
この定理によって、たとえば人数の異なる複数のクラスに実施したテストの全体の平均点が各クラスの平均点と人数をもとに算出できます。
仮平均
証明
合成変数の平均に関する定理により直ちに導かれる。
これはたとえば、5人に実施したテストの点数が
であったとき、定義に従って平均値を計算しなくても、だいたいのあたりに平均があるだろうと予想して、各データからを引いた新たなデータ
の平均値を計算し、最後にを足せば平均値が求まるということです。この場合は
なので、平均点はであることがわかります。
【記述統計】代表値(1)ー中央値ー
記述統計
たとえば私が100点満点のテストで75点を取ったとしましょう。
これは高得点だと言えるでしょうか。
おそらく誰もが思ったように、これだけの情報では高得点ともそうでないとも言えません。
たとえば、私以外の全員が20点しか取れなかったのであればまぎれもなく高得点でしょうし、他の人が全員100点だったら高得点ではないでしょう。
このように、あるデータがあったとしてそれ単品では評価を下すことは通常困難で、ふつう収集したデータについての情報を明らかにし、傾向や性質などを把握した上で判断します。このような統計の手法を記述統計と言います。
代表値
記述統計の上で、集めたデータを特徴づける量を考える必要性は想像に難くないでしょう。
分布の全体をひとつの値で特徴づけたその値を代表値といいます。
代表値が与えられたら、私が取った75点という成績がいいのか悪いのかの判断の材料になるでしょう。
では、どのような値を代表値に設定するのが良いのでしょうか。
たとえばある値があって、これが各データと最も近いとすれば、これを代表値とするのが適当でしょう。
それぞれのデータとの近さが最も優れているとき、直感的には
の値が元のデータ全体を総合した時に最も小さいと言い換えることができそうです。ここで、は数直線上のの距離を表したのでした。
データ全体を総合した時に最も小さいとは、すなわち各について総和をとればよいので
を計算した結果が最も小さくなるようなを代表値に設定すればよさそうです。
中央値
5人が同じテストを受けて、それぞれの点数が
だったとしましょう。
このとき、仮に代表値を最低点と最高点の真ん中の値に設定したとしましょう。
そうすれば、の値は
しかし、3番目に高い得点であるを代表値に選べば
となり、より小さくなります。
これを様々ためしてみると、どうやらを選んだ時が最も小さくなるようです。
では、なぜそうなるのでしょうか。
と、
について、青く塗った部分の和について考えてみましょう。
上の式の青い部分の和を計算するとになります。
そして、下の式の青い部分の和も計算するとになります。
これはの部分に何を入れてもになります。
この絶対値の計算はとの距離だったので、を動かせば距離が短くなったり長くなったりします。
を大きくすれば、上2つのデータとの距離は短くなりますが、その分だけ下2つのデータとの距離は長くなります。その結果相殺されてどれだけを変えても青い部分の和はから変わらないのです。
そうだとすると、あとは小さい順に並べて丁度中央にあるデータにを設定すれば、青く塗らなかった部分がになり、が最小になります。
また、データの個数が偶数個の時は中央にあるデータが2つ生じますが、どちらをに代入しても同じ値になります。
しかし「どちらでもいい」という一つに定まらないような取り決めは不便なので、その場合は中央にあるデータの丁度真ん中の値を中央値と定めます。
収集したデータをとなるように並び替え、番号をふったとき、その中央値を
が奇数なら
が偶数なら
と定める。
【数学的準備】和の記号Σ
和の記号
統計学では多数のデータを扱います。
そのため、多くの数を足し合わせたりするような数式が出現し、煩雑になることがあります。
そこで書く手間を減らしたり計算を楽にするために、和の記号というものを定義します。見た目はイカツイですが、ただの略記だと思うとよいです。
つまりこのは、足し合わせたい対象の左側に置くことでその対象を番目から番目まで順番に足すように命令する、という記号です。 この定義により、次のことがわかります。
証明
はを含まない式なので、これはの値によらず常にである。よって番目から番目までずっとということなので
和の記号を書き下して
和の記号を書き下して
これは有限個の和なので、足し合わせる順番を変えても総和は変わらないから、まず先にを、その後にを足し合わせて
ただし、
であることに注意しましょう。たとえば
ですが、
となり、でない限りは等号が成立しません。
またこの定理により、計算の線形性という重要な性質が成り立つことがわかります。
定数に対し
証明
の性質をまとめた表記であるので直ちに従う。
この線形性により直感的で簡単に計算ができるようになります。
今後を頻繁に使うので上の性質は覚えておいてください。
本ブログの目的
「文系」と言われたときに、どのようなイメージを抱くでしょうか。
「理科や数学を使わない」というイメージを持つ方も少なくないでしょう。
またそのようなイメージから、数学が苦手だからという理由で文系を選択する高校生も多い。
しかし、それは大きな誤解です。
もちろん、理科や数学を全く使わない文系学問もあります。
ですが、経済学や心理学、人類学など少なくない種類の文系の学問で統計学、すなわち数学がフル活用されているのです。
本屋やインターネット上にも、文系学問のための統計に関する書籍やサイトが多数存在します。
一見とても充実しているようですが、これらは原理的、数学的なことに触れずに応用だけに言及されたものか、あるいは完全に数学的な解説に偏ったものかの両極端が圧倒的多数で、その中間となるようなものは多くありません。
その弊害か、統計を活用する分野の多くの文系学生がよく理解しないまま統計分析を行ったりという光景を目にします。これは健全な統計に対する態度とは言えないでしょう。
それに加えて、現在ある文系向けの統計学の本の数学的な記述の中には当然のように極限や微分積分、偏微分や重積分などが用いられることも多くあり、ほとんどの文系学生が多くとも数学ⅠA・ⅡB、中には数学ⅠA・Ⅱまでしか履修していない者もいるという現状が考慮されているとは言えません。
そこで本ブログでは
①文系学生が統計学について学ぶことを想定したうえで、応用に偏るのではなく、数学的な裏付けをできる限り紹介しながら解説する
②高校から大学の接続を考慮して、前提知識を数学ⅠA・Ⅱ(現行学習指導要領)までとし、それより進んだ数学的知識についてはその都度解説する
の2点を心掛けて作成してまいります。
さらに「文系学生を想定」とひとくくりにしても、分野によって多種多様な統計学が活用されています。そこで本ブログでは、主に中の人の専攻である心理学に焦点を当て、そこで用いられる基本的な統計学について解説していきます。
またこのようにブログの対象を設定することの目的はもう一つあります。平成30年告示改訂学習指導要領では、『統計的な推測』が数学Bで(事実上)必修になります。そこで学ぶ高校生や指導する数学の先生方が本ブログを読むことが、単なる数学的な側面ではなく、特に文系領域で応用される統計学という側面にも触れることができ、より多角的な理解の助けになるでしょう(そうなれるようなブログの編集に努めます)。
このブログによって多くの方が統計についてよく理解し、統計学、数学の奥深さを知ることを願って、そのようなブログにできるよう努力してまいります。