文系だって統計がしたい

文系大学生を想定して統計学の解説をします。

【記述統計】代表値(2)―平均値、合成変数の平均、仮平均―

平均値

前回(【記述統計】代表値(1)ー中央値ー - 文系だって統計がしたい)は、妥当な代表値を考えるために

\displaystyle\sum_{i=1}^n|x_i-t|

が最小となるようなtを考えて、中央値というものを設定しました。

 

5人のテストの点数

20, 45, 75, 80, 90

の中央値は75です。

しかしこれは 45, 75, 80, 90の4つのデータとある程度近く、代表値としてよく表せている気がしますが、最低点の20とは55も離れています。

 よって、大きく外れた値も反映させた代表値を考えたいというモチベーションが湧いてきます。

 

そこで、\displaystyle\sum_{i=1}^n|x_i-t|の代わりに

\displaystyle\sum_{i=1}^n{|x_i-t|}^2=\sum_{i=1}^n{(x_i-t)}^2

 を最小化することを考えます。

2乗した理由は、より大きく外れた差の影響力を増幅させるためです。小さい数を2乗させるより大きい数を2乗させる方がより大きく増加します。

 

 ここで、天下り的ですが

\displaystyle\overline{x}:=\frac{1}{n}\sum_{i=1}^nx_i

 と定義される量\overline{x}を考えます。これを用いると

\displaystyle\sum_{i=1}^n{(x_i-t)}^2=\sum_{i=1}^n{(x_i-\overline{x}+\overline{x}-t)}^2=\sum_{i=1}^n{\left\{(x_i-\overline{x})+(\overline{x}-t)\right\}}^2

 第2項で-\overline{x}+\overline{x}を挿入していますが、これは結局0なので上の等式が成り立ちます。

これを展開して

=\displaystyle\sum_{i=1}^n\left\{{(x_i-\overline{x})}^2+2(x_i-\overline{x})(\overline{x}-t)+{(\overline{x}-t)}^2\right\}
=\displaystyle\sum_{i=1}^n{(x_i-\overline{x})}^2+2\sum_{i=1}^n(x_i-\overline{x})(\overline{x}-t)+\sum_{i=1}^n{(\overline{x}-t)}^2

 ここで第2項を計算すると

\displaystyle2\sum_{i=1}^n(x_i-\overline{x})(\overline{x}-t)=2(\overline{x}-t)\sum_{i=1}^n(x_i-\overline{x})
\displaystyle=2(\overline{x}-t)(\sum_{i=1}^nx_i-\sum_{i=1}^n\overline{x})
\displaystyle=2(\overline{x}-t)(n\cdot\frac{1}{n}\sum_{i=1}^nx_i-n\overline{x})
\displaystyle=2(\overline{x}-t)(n\overline{x}-n\overline{x})=0

 となって消えるので、

\displaystyle\sum_{i=1}^n{(x_i-t)}^2=\sum_{i=1}^n{(x_i-\overline{x})}^2+\sum_{i=1}^n{(\overline{x}-t)}^2=\sum_{i=1}^n{(x_i-\overline{x})}^2+n{(\overline{x}-t)}^2

 となります。tをうまく設定してこれを最小化するには、右辺の第2項が0になるようにすればよく、結局

t=\overline{x}

 とすればよさそうです。

この\overline{x}平均値といい、これは中央値よりも、分布の全体から大きく外れた値(はずれ値)を反映させた代表値となります。

 

定義 平均値
x_1,\cdots , x_nn個のデータの平均値を
\displaystyle\overline{x}:=\frac{1}{n}\sum_{i=1}^nx_i
と定める。

 

平均値は中央値と比べてはずれ値の影響を受けやすいことは十分に考慮されるべきことです。

たとえば10人の友だちグループのうち、9人がお小遣いとして毎月2,000円をもらっていて、残りの1人が50,000円をもらっているとしましょう。この10人のお小遣いの平均値を計算すると

\displaystyle\frac{9\cdot2000+1\cdot50000}{10}=6800

となります。 このような場合に平均値を分布の代表とするのは適切かと言われると微妙です。中央値と平均値両方を比べることで、どのような分布なのかを考える必要があります。

 

合成変数の平均

ある学校で数学の単元テストと、その学期の期末テストを行ったとしましょう。

単元テストはあくまで定着度合いを確認する目的なので、期末テストの配点を重くして成績をつけることにします。その重みづけの配分を2:3で行うとき、i番目の生徒の成績v_iは、単元テストの得点をx_i、期末テストの得点をy_iとすると

v_i=2x_i+3y_i

 と得点化されます。

 このように変換した新たな変数v_iの平均値\overline{v}は、x,yのデータを用いて表せないのでしょうか。

 

定理 合成変数の平均
x_1,\cdots , x_ny_1,\cdots,y_nの2種類のn個のデータの平均値をそれぞれ\overline{x},\overline{y}とする。このとき、x_i,y_iと定数a,bを用いた新たな変数
v_i=ax_i+by_i
の平均値\overline{v}
\overline{v}=a\overline{x}+b\overline{y}
で表される。

証明

平均値の定義によって

\displaystyle\overline{v}=\frac{1}{n}\sum_{i=1}^nv_i=\frac{1}{n}\sum_{i=1}^n(ax_i+by_i)
\displaystyle=\frac{1}{n}(a\sum_{i=1}^nx_i+b\sum_{i=1}^ny_i)
\displaystyle=a\cdot\frac{1}{n}\sum_{i=1}^nx_i+b\cdot\frac{1}{n}\sum_{i=1}^ny_i
=a\overline{x}+b\overline{y}~~~~~~~~~~~~~~~~~~~~~~~~

\Box

これは、平均値の計算が線形であることを意味します。

 

さらに、次が成り立ちます。

 

定理 合併集団の平均
i番目の集団での平均値を\overline{x_{i}}とし、i番目の集団のデータの個数をn_iとする。このとき、1番目からm番目までの集団を合併させた集団全体の平均値\overline{x_{union}}
\displaystyle\overline{x_{union}}=\frac{\displaystyle\sum_{i=1}^mn_i\overline{x_i}}{\displaystyle\sum_{i=1}^mn_i}
で表される。たとえば、2つの集団の合併での平均値は
\displaystyle\frac{n_1\overline{x_1}+n_2\overline{x_2}}{n_1+n_2}
で与えられる。

証明

i番目の集団のj番目のデータをx_{ij}と書くことにすると、\overline{x_{union}}の定義によって

\displaystyle\overline{x_{union}}=\frac{\displaystyle\sum_{i=1}^m\left(x_{i1}+x_{i2}+\cdots+x_{in_i}\right)}{\displaystyle\sum_{i=1}^mn_i}=\frac{\displaystyle\sum_{i=1}^m\left(\sum_{j=1}^{n_i}x_{ij}\right)}{\displaystyle\sum_{i=1}^mn_i}
=\frac{\displaystyle\sum_{i=1}^m\left(n_i\cdot\frac{1}{n_i}\sum_{j=1}^{n_i}x_{ij}\right)}{\displaystyle\sum_{i=1}^mn_i}=\frac{\displaystyle\sum_{i=1}^mn_i\overline{x_i}}{\displaystyle\sum_{i=1}^mn_i}

\Box

 物理を勉強したことのある方なら、これは質量がn_i、座標が\overline{x_i}であるm個の質点からなる物体の重心の座標となっていることがわかると思います。

 

この定理によって、たとえば人数の異なる複数のクラスに実施したテストの全体の平均点が各クラスの平均点と人数をもとに算出できます。

 

仮平均

 

定理 仮平均
x_1,\cdots , x_nn個からなるデータの平均値を\overline{x}とする。このときx_iの平均値は、定数cを用いて
v_i=x_i-c
と変換された変数の平均\overline{v}によって
\overline{x}=\overline{v}+c
と表される。

証明

合成変数の平均に関する定理により直ちに導かれる。

\Box

 これはたとえば、5人に実施したテストの点数が

60,63,70,80,81

 であったとき、定義に従って平均値を計算しなくても、だいたい70のあたりに平均があるだろうと予想して、各データから70を引いた新たなデータ

-10,-7,0,10,11

 の平均値を計算し、最後に70を足せば平均値が求まるということです。この場合は

\displaystyle\frac{-10+-7+0+10+11}{5}=0.6

 なので、平均点は70+0.6=70.6であることがわかります。

 

【記述統計】代表値(1)ー中央値ー

記述統計

たとえば私が100点満点のテストで75点を取ったとしましょう。

これは高得点だと言えるでしょうか。

 

おそらく誰もが思ったように、これだけの情報では高得点ともそうでないとも言えません。

たとえば、私以外の全員が20点しか取れなかったのであればまぎれもなく高得点でしょうし、他の人が全員100点だったら高得点ではないでしょう。

 

このように、あるデータがあったとしてそれ単品では評価を下すことは通常困難で、ふつう収集したデータについての情報を明らかにし、傾向や性質などを把握した上で判断します。このような統計の手法を記述統計と言います。

 

代表値

 記述統計の上で、集めたデータを特徴づける量を考える必要性は想像に難くないでしょう。

分布の全体をひとつの値で特徴づけたその値を代表値といいます。

代表値が与えられたら、私が取った75点という成績がいいのか悪いのかの判断の材料になるでしょう。

 

では、どのような値を代表値に設定するのが良いのでしょうか。

 

たとえばある値tがあって、これが各データと最も近いとすれば、これを代表値とするのが適当でしょう。

それぞれのデータとの近さが最も優れているとき、直感的には

|x_i-t|

の値が元のデータ全体を総合した時に最も小さいと言い換えることができそうです。ここで、|a-b|は数直線上のa,bの距離を表したのでした。

データ全体を総合した時に最も小さいとは、すなわち各iについて総和をとればよいので

\displaystyle\sum_{i=1}^n|x_i-t|

 を計算した結果が最も小さくなるようなtを代表値に設定すればよさそうです。

 

中央値

5人が同じテストを受けて、それぞれの点数が

20, 45, 75, 80, 90

 だったとしましょう。

このとき、仮に代表値を最低点と最高点の真ん中の値55に設定したとしましょう。

そうすれば、\displaystyle\sum_{i=1}^n|x_i-t|の値は

|20-55|+|45-55|+|75-55|+|80-55|+|90-55|=125

 しかし、3番目に高い得点である75を代表値に選べば

|20-75|+|45-75|+|75-75|+|80-75|+|90-75|=105

 となり、より小さくなります。

これを様々ためしてみると、どうやら75を選んだ時が最も小さくなるようです。

 

では、なぜそうなるのでしょうか。

|20-55|+|45-55|+|75-55|+|80-55|+|90-55|

と、

|20-75|+|45-75|+|75-75|+|80-75|+|90-75|

 について、青く塗った部分の和について考えてみましょう。

上の式の青い部分の和を計算すると105になります。

そして、下の式の青い部分の和も計算すると105になります。

これはtの部分に何を入れても105になります。

この絶対値の計算はx_itの距離だったので、tを動かせば距離が短くなったり長くなったりします。

tを大きくすれば、上2つのデータとの距離は短くなりますが、その分だけ下2つのデータとの距離は長くなります。その結果相殺されてどれだけtを変えても青い部分の和は105から変わらないのです。

 

そうだとすると、あとは小さい順に並べて丁度中央にあるデータにtを設定すれば、青く塗らなかった部分が0になり、\displaystyle\sum_{i=1}^n|x_i-t|が最小になります。

 

また、データの個数が偶数個の時は中央にあるデータが2つ生じますが、どちらをtに代入しても同じ値になります。

しかし「どちらでもいい」という一つに定まらないような取り決めは不便なので、その場合は中央にあるデータの丁度真ん中の値を中央値と定めます。

 

定義 中央値

収集したデータをx_1\leq x_2\leq\cdots\leq x_nとなるように並び替え、番号をふったとき、その中央値Med

nが奇数なら

Med:=x_{\frac{1+n}{2}}

nが偶数なら

Med:=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}

と定める。

 

 

 

【数学的準備】和の記号Σ

和の記号\sum

統計学では多数のデータを扱います。

そのため、多くの数を足し合わせたりするような数式が出現し、煩雑になることがあります。

そこで書く手間を減らしたり計算を楽にするために、和の記号\sumというものを定義します。見た目はイカツイですが、ただの略記だと思うとよいです。

 

定義 和の記号\sum
i番目のデータをx_iと表すとき、1番目からn番目までn個のデータを足した和を
\displaystyle\sum_{i=1}^nx_i
と表す。すなわち
\displaystyle\sum_{i=1}^nx_i:=x_1+x_2+\cdots+x_n

 

つまりこの\displaystyle\sum_{i=1}^nは、足し合わせたい対象の左側に置くことでその対象を1番目からn番目まで順番に足すように命令する、という記号です。 この定義により、次のことがわかります。

 

定理 \sumの性質
(1) 定数cに対して\displaystyle\sum_{i=1}^nc=nc
(2) 定数cに対して\displaystyle\sum_{i=1}^ncx_i=c\displaystyle\sum_{i=1}^nx_i
(3) \displaystyle\sum_{i=1}^n(x_i+y_i)=\displaystyle\sum_{i=1}^nx_i+\displaystyle\sum_{i=1}^ny_i

証明

(1) ciを含まない式なので、これはiの値によらず常にcである。よって1番目からn番目までずっとcということなので

\displaystyle\sum_{i=1}^nc=c+c+\cdots+c (n個の和)=nc

(2) 和の記号を書き下して

\displaystyle\sum_{i=1}^ncx_i=cx_1+cx_2+\cdots+cx_n
=c(x_1+x_2+\cdots+x_n)=c\displaystyle\sum_{i=1}^nx_i

(3) 和の記号を書き下して

\displaystyle\sum_{i=1}^n(x_i+y_i)=(x_1+y_1)+(x_2+y_2)+\cdots+(x_n+y_n)

これは有限個の和なので、足し合わせる順番を変えても総和は変わらないから、まず先にxを、その後にyを足し合わせて

=(x_1+x_2+\cdots+x_n)+(y_1+y_2+\cdots+y_n)
=\displaystyle\sum_{i=1}^nx_i+\displaystyle\sum_{i=1}^ny_i

\Box

ただし、

\displaystyle\sum_{i=1}^n{x_i}^2\neq{\displaystyle\left(\displaystyle\sum_{i=1}^nx_i\right)}^2

であることに注意しましょう。たとえば

\displaystyle\sum_{i=1}^2{x_i}^2={x_1}^2+{x_2}^2

ですが、

{\displaystyle\left(\displaystyle\sum_{i=1}^2x_i\right)}^2={(x_1+x_2)}^2
={x_1}^2+2x_1x_2+{x_2}^2

となり、x_1x_2=0でない限りは等号が成立しません。

 

またこの定理により、\sum計算の線形性という重要な性質が成り立つことがわかります。

 

系 \sumの線形性

定数a,bに対し

\displaystyle\sum_{i=1}^n(ax_i+by_i)=a\displaystyle\sum_{i=1}^nx_i+b\displaystyle\sum_{i=1}^ny_i

証明

\sumの性質(2)(3)をまとめた表記であるので直ちに従う。

\Box

 この線形性により直感的で簡単に計算ができるようになります。

 

今後\sumを頻繁に使うので上の性質は覚えておいてください。

 

本ブログの目的

「文系」と言われたときに、どのようなイメージを抱くでしょうか。

 

「理科や数学を使わない」というイメージを持つ方も少なくないでしょう。

またそのようなイメージから、数学が苦手だからという理由で文系を選択する高校生も多い。

 

しかし、それは大きな誤解です。

 

もちろん、理科や数学を全く使わない文系学問もあります。

ですが、経済学や心理学、人類学など少なくない種類の文系の学問で統計学、すなわち数学がフル活用されているのです。

 

 

本屋やインターネット上にも、文系学問のための統計に関する書籍やサイトが多数存在します。

一見とても充実しているようですが、これらは原理的、数学的なことに触れずに応用だけに言及されたものか、あるいは完全に数学的な解説に偏ったものかの両極端が圧倒的多数で、その中間となるようなものは多くありません。

その弊害か、統計を活用する分野の多くの文系学生がよく理解しないまま統計分析を行ったりという光景を目にします。これは健全な統計に対する態度とは言えないでしょう。

 

それに加えて、現在ある文系向けの統計学の本の数学的な記述の中には当然のように極限や微分積分偏微分や重積分などが用いられることも多くあり、ほとんどの文系学生が多くとも数学ⅠA・ⅡB、中には数学ⅠA・Ⅱまでしか履修していない者もいるという現状が考慮されているとは言えません。

 

そこで本ブログでは

①文系学生が統計学について学ぶことを想定したうえで、応用に偏るのではなく、数学的な裏付けをできる限り紹介しながら解説する

②高校から大学の接続を考慮して、前提知識を数学ⅠA・Ⅱ(現行学習指導要領)までとし、それより進んだ数学的知識についてはその都度解説する

の2点を心掛けて作成してまいります。

 

さらに「文系学生を想定」とひとくくりにしても、分野によって多種多様な統計学が活用されています。そこで本ブログでは、主に中の人の専攻である心理学に焦点を当て、そこで用いられる基本的な統計学について解説していきます。

 

またこのようにブログの対象を設定することの目的はもう一つあります。平成30年告示改訂学習指導要領では、『統計的な推測』が数学Bで(事実上)必修になります。そこで学ぶ高校生や指導する数学の先生方が本ブログを読むことが、単なる数学的な側面ではなく、特に文系領域で応用される統計学という側面にも触れることができ、より多角的な理解の助けになるでしょう(そうなれるようなブログの編集に努めます)。

 

 

このブログによって多くの方が統計についてよく理解し、統計学、数学の奥深さを知ることを願って、そのようなブログにできるよう努力してまいります。