2020-11-28

【記述統計】代表値(2)―平均値、合成変数の平均、仮平均―

平均値

前回（【記述統計】代表値(1)ー中央値ー - 文系だって統計がしたい）は、妥当な代表値を考えるために

$\displaystyle\sum_{i=1}^n|x_i-t|$

が最小となるような $t$ を考えて、中央値というものを設定しました。

5人のテストの点数

$20, 45, 75, 80, 90$

の中央値は $75$ です。

しかしこれは $45, 75, 80, 90$ の4つのデータとある程度近く、代表値としてよく表せている気がしますが、最低点の $20$ とは $55$ も離れています。

よって、大きく外れた値も反映させた代表値を考えたいというモチベーションが湧いてきます。

そこで、 $\displaystyle\sum_{i=1}^n|x_i-t|$ の代わりに

$\displaystyle\sum_{i=1}^n{|x_i-t|}^2=\sum_{i=1}^n{(x_i-t)}^2$

を最小化することを考えます。

2乗した理由は、より大きく外れた差の影響力を増幅させるためです。小さい数を2乗させるより大きい数を2乗させる方がより大きく増加します。

ここで、天下り的ですが

$\displaystyle\overline{x}:=\frac{1}{n}\sum_{i=1}^nx_i$

と定義される量 $\overline{x}$ を考えます。これを用いると

$\displaystyle\sum_{i=1}^n{(x_i-t)}^2=\sum_{i=1}^n{(x_i-\overline{x}+\overline{x}-t)}^2=\sum_{i=1}^n{\left\{(x_i-\overline{x})+(\overline{x}-t)\right\}}^2$

第2項で $-\overline{x}+\overline{x}$ を挿入していますが、これは結局 $0$ なので上の等式が成り立ちます。

これを展開して

$=\displaystyle\sum_{i=1}^n\left\{{(x_i-\overline{x})}^2+2(x_i-\overline{x})(\overline{x}-t)+{(\overline{x}-t)}^2\right\}$ $=\displaystyle\sum_{i=1}^n{(x_i-\overline{x})}^2+2\sum_{i=1}^n(x_i-\overline{x})(\overline{x}-t)+\sum_{i=1}^n{(\overline{x}-t)}^2$

ここで第2項を計算すると

$\displaystyle2\sum_{i=1}^n(x_i-\overline{x})(\overline{x}-t)=2(\overline{x}-t)\sum_{i=1}^n(x_i-\overline{x})$ $\displaystyle=2(\overline{x}-t)(\sum_{i=1}^nx_i-\sum_{i=1}^n\overline{x})$ $\displaystyle=2(\overline{x}-t)(n\cdot\frac{1}{n}\sum_{i=1}^nx_i-n\overline{x})$ $\displaystyle=2(\overline{x}-t)(n\overline{x}-n\overline{x})=0$

となって消えるので、

$\displaystyle\sum_{i=1}^n{(x_i-t)}^2=\sum_{i=1}^n{(x_i-\overline{x})}^2+\sum_{i=1}^n{(\overline{x}-t)}^2=\sum_{i=1}^n{(x_i-\overline{x})}^2+n{(\overline{x}-t)}^2$

となります。 $t$ をうまく設定してこれを最小化するには、右辺の第2項が $0$ になるようにすればよく、結局

$t=\overline{x}$

とすればよさそうです。

この $\overline{x}$ を平均値といい、これは中央値よりも、分布の全体から大きく外れた値（はずれ値）を反映させた代表値となります。

定義　平均値

$x_1,\cdots , x_n$ の $n$ 個のデータの平均値を $\displaystyle\overline{x}:=\frac{1}{n}\sum_{i=1}^nx_i$ と定める。

平均値は中央値と比べてはずれ値の影響を受けやすいことは十分に考慮されるべきことです。

たとえば10人の友だちグループのうち、9人がお小遣いとして毎月2,000円をもらっていて、残りの1人が50,000円をもらっているとしましょう。この10人のお小遣いの平均値を計算すると

$\displaystyle\frac{9\cdot2000+1\cdot50000}{10}=6800$

となります。このような場合に平均値を分布の代表とするのは適切かと言われると微妙です。中央値と平均値両方を比べることで、どのような分布なのかを考える必要があります。

合成変数の平均

ある学校で数学の単元テストと、その学期の期末テストを行ったとしましょう。

単元テストはあくまで定着度合いを確認する目的なので、期末テストの配点を重くして成績をつけることにします。その重みづけの配分を2:3で行うとき、 $i$ 番目の生徒の成績 $v_i$ は、単元テストの得点を $x_i$ 、期末テストの得点を $y_i$ とすると

$v_i=2x_i+3y_i$

と得点化されます。

このように変換した新たな変数 $v_i$ の平均値 $\overline{v}$ は、 $x,y$ のデータを用いて表せないのでしょうか。

定理　合成変数の平均

$x_1,\cdots , x_n$ と $y_1,\cdots,y_n$ の2種類の $n$ 個のデータの平均値をそれぞれ $\overline{x},\overline{y}$ とする。このとき、 $x_i,y_i$ と定数 $a,b$ を用いた新たな変数 $v_i=ax_i+by_i$ の平均値 $\overline{v}$ は $\overline{v}=a\overline{x}+b\overline{y}$ で表される。

証明

平均値の定義によって

$\displaystyle\overline{v}=\frac{1}{n}\sum_{i=1}^nv_i=\frac{1}{n}\sum_{i=1}^n(ax_i+by_i)$ $\displaystyle=\frac{1}{n}(a\sum_{i=1}^nx_i+b\sum_{i=1}^ny_i)$ $\displaystyle=a\cdot\frac{1}{n}\sum_{i=1}^nx_i+b\cdot\frac{1}{n}\sum_{i=1}^ny_i$ $=a\overline{x}+b\overline{y}~~~~~~~~~~~~~~~~~~~~~~~~$

$\Box$

これは、平均値の計算が線形であることを意味します。

さらに、次が成り立ちます。

定理　合併集団の平均

$i$ 番目の集団での平均値を $\overline{x_{i}}$ とし、 $i$ 番目の集団のデータの個数を $n_i$ とする。このとき、 $1$ 番目から $m$ 番目までの集団を合併させた集団全体の平均値 $\overline{x_{union}}$ は

$\displaystyle\overline{x_{union}}=\frac{\displaystyle\sum_{i=1}^mn_i\overline{x_i}}{\displaystyle\sum_{i=1}^mn_i}$ で表される。たとえば、2つの集団の合併での平均値は $\displaystyle\frac{n_1\overline{x_1}+n_2\overline{x_2}}{n_1+n_2}$ で与えられる。

証明

$i$ 番目の集団の $j$ 番目のデータを $x_{ij}$ と書くことにすると、 $\overline{x_{union}}$ の定義によって

$\displaystyle\overline{x_{union}}=\frac{\displaystyle\sum_{i=1}^m\left(x_{i1}+x_{i2}+\cdots+x_{in_i}\right)}{\displaystyle\sum_{i=1}^mn_i}=\frac{\displaystyle\sum_{i=1}^m\left(\sum_{j=1}^{n_i}x_{ij}\right)}{\displaystyle\sum_{i=1}^mn_i}$ $=\frac{\displaystyle\sum_{i=1}^m\left(n_i\cdot\frac{1}{n_i}\sum_{j=1}^{n_i}x_{ij}\right)}{\displaystyle\sum_{i=1}^mn_i}=\frac{\displaystyle\sum_{i=1}^mn_i\overline{x_i}}{\displaystyle\sum_{i=1}^mn_i}$

$\Box$

物理を勉強したことのある方なら、これは質量が $n_i$ 、座標が $\overline{x_i}$ である $m$ 個の質点からなる物体の重心の座標となっていることがわかると思います。

この定理によって、たとえば人数の異なる複数のクラスに実施したテストの全体の平均点が各クラスの平均点と人数をもとに算出できます。

仮平均

定理　仮平均

$x_1,\cdots , x_n$ の $n$ 個からなるデータの平均値を $\overline{x}$ とする。このとき $x_i$ の平均値は、定数 $c$ を用いて $v_i=x_i-c$ と変換された変数の平均 $\overline{v}$ によって
$\overline{x}=\overline{v}+c$ と表される。

証明

合成変数の平均に関する定理により直ちに導かれる。

$\Box$

これはたとえば、5人に実施したテストの点数が

$60,63,70,80,81$

であったとき、定義に従って平均値を計算しなくても、だいたい $70$ のあたりに平均があるだろうと予想して、各データから $70$ を引いた新たなデータ

$-10,-7,0,10,11$

の平均値を計算し、最後に $70$ を足せば平均値が求まるということです。この場合は

$\displaystyle\frac{-10+-7+0+10+11}{5}=0.6$

なので、平均点は $70+0.6=70.6$ であることがわかります。

2020-11-28

【記述統計】代表値(1)ー中央値ー

記述統計

たとえば私が100点満点のテストで75点を取ったとしましょう。

これは高得点だと言えるでしょうか。

おそらく誰もが思ったように、これだけの情報では高得点ともそうでないとも言えません。

たとえば、私以外の全員が20点しか取れなかったのであればまぎれもなく高得点でしょうし、他の人が全員100点だったら高得点ではないでしょう。

このように、あるデータがあったとしてそれ単品では評価を下すことは通常困難で、ふつう収集したデータについての情報を明らかにし、傾向や性質などを把握した上で判断します。このような統計の手法を記述統計と言います。

代表値

記述統計の上で、集めたデータを特徴づける量を考える必要性は想像に難くないでしょう。

分布の全体をひとつの値で特徴づけたその値を代表値といいます。

代表値が与えられたら、私が取った75点という成績がいいのか悪いのかの判断の材料になるでしょう。

では、どのような値を代表値に設定するのが良いのでしょうか。

たとえばある値 $t$ があって、これが各データと最も近いとすれば、これを代表値とするのが適当でしょう。

それぞれのデータとの近さが最も優れているとき、直感的には

$|x_i-t|$

の値が元のデータ全体を総合した時に最も小さいと言い換えることができそうです。ここで、 $|a-b|$ は数直線上の $a,b$ の距離を表したのでした。

データ全体を総合した時に最も小さいとは、すなわち各 $i$ について総和をとればよいので

$\displaystyle\sum_{i=1}^n|x_i-t|$

を計算した結果が最も小さくなるような $t$ を代表値に設定すればよさそうです。

中央値

5人が同じテストを受けて、それぞれの点数が

$20, 45, 75, 80, 90$

だったとしましょう。

このとき、仮に代表値を最低点と最高点の真ん中の値 $55$ に設定したとしましょう。

そうすれば、 $\displaystyle\sum_{i=1}^n|x_i-t|$ の値は

$|20-55|+|45-55|+|75-55|+|80-55|+|90-55|=125$

しかし、3番目に高い得点である $75$ を代表値に選べば

$|20-75|+|45-75|+|75-75|+|80-75|+|90-75|=105$

となり、より小さくなります。

これを様々ためしてみると、どうやら $75$ を選んだ時が最も小さくなるようです。

では、なぜそうなるのでしょうか。

$|20-55|+|45-55|$ $+|75-55|$ $+|80-55|+|90-55|$

と、

$|20-75|+|45-75|$ $+|75-75|$ $+|80-75|+|90-75|$

について、青く塗った部分の和について考えてみましょう。

上の式の青い部分の和を計算すると $105$ になります。

そして、下の式の青い部分の和も計算すると $105$ になります。

これは $t$ の部分に何を入れても $105$ になります。

この絶対値の計算は $x_i$ と $t$ の距離だったので、 $t$ を動かせば距離が短くなったり長くなったりします。

$t$ を大きくすれば、上2つのデータとの距離は短くなりますが、その分だけ下2つのデータとの距離は長くなります。その結果相殺されてどれだけ $t$ を変えても青い部分の和は $105$ から変わらないのです。

そうだとすると、あとは小さい順に並べて丁度中央にあるデータに $t$ を設定すれば、青く塗らなかった部分が $0$ になり、 $\displaystyle\sum_{i=1}^n|x_i-t|$ が最小になります。

また、データの個数が偶数個の時は中央にあるデータが2つ生じますが、どちらを $t$ に代入しても同じ値になります。

しかし「どちらでもいい」という一つに定まらないような取り決めは不便なので、その場合は中央にあるデータの丁度真ん中の値を中央値と定めます。

定義　中央値

収集したデータを $x_1\leq x_2\leq\cdots\leq x_n$ となるように並び替え、番号をふったとき、その中央値 $Med$ を

$n$ が奇数なら

$Med:=x_{\frac{1+n}{2}}$

$n$ が偶数なら

$Med:=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$

と定める。

2020-11-28

【数学的準備】和の記号Σ

和の記号 $\sum$

統計学では多数のデータを扱います。

そのため、多くの数を足し合わせたりするような数式が出現し、煩雑になることがあります。

そこで書く手間を減らしたり計算を楽にするために、和の記号 $\sum$ というものを定義します。見た目はイカツイですが、ただの略記だと思うとよいです。

定義　和の記号 $\sum$

$i$ 番目のデータを $x_i$ と表すとき、 $1$ 番目から $n$ 番目まで $n$ 個のデータを足した和を
$\displaystyle\sum_{i=1}^nx_i$ と表す。すなわち $\displaystyle\sum_{i=1}^nx_i:=x_1+x_2+\cdots+x_n$

つまりこの $\displaystyle\sum_{i=1}^n$ は、足し合わせたい対象の左側に置くことでその対象を $1$ 番目から $n$ 番目まで順番に足すように命令する、という記号です。この定義により、次のことがわかります。

定理　 $\sum$ の性質

$(1)$ 定数 $c$ に対して $\displaystyle\sum_{i=1}^nc=nc$

$(2)$ 定数 $c$ に対して $\displaystyle\sum_{i=1}^ncx_i=c\displaystyle\sum_{i=1}^nx_i$

$(3)$ $\displaystyle\sum_{i=1}^n(x_i+y_i)=\displaystyle\sum_{i=1}^nx_i+\displaystyle\sum_{i=1}^ny_i$

証明

$(1)$ $c$ は $i$ を含まない式なので、これは $i$ の値によらず常に $c$ である。よって $1$ 番目から $n$ 番目までずっと $c$ ということなので

$\displaystyle\sum_{i=1}^nc=c+c+\cdots+c$ ( $n$ 個の和) $=nc$

$(2)$ 和の記号を書き下して

$\displaystyle\sum_{i=1}^ncx_i=cx_1+cx_2+\cdots+cx_n$ $=c(x_1+x_2+\cdots+x_n)=c\displaystyle\sum_{i=1}^nx_i$

$(3)$ 和の記号を書き下して

$\displaystyle\sum_{i=1}^n(x_i+y_i)=(x_1+y_1)+(x_2+y_2)+\cdots+(x_n+y_n)$

これは有限個の和なので、足し合わせる順番を変えても総和は変わらないから、まず先に $x$ を、その後に $y$ を足し合わせて

$=(x_1+x_2+\cdots+x_n)+(y_1+y_2+\cdots+y_n)$ $=\displaystyle\sum_{i=1}^nx_i+\displaystyle\sum_{i=1}^ny_i$

$\Box$

ただし、

$\displaystyle\sum_{i=1}^n{x_i}^2\neq{\displaystyle\left(\displaystyle\sum_{i=1}^nx_i\right)}^2$

であることに注意しましょう。たとえば

$\displaystyle\sum_{i=1}^2{x_i}^2={x_1}^2+{x_2}^2$

ですが、

${\displaystyle\left(\displaystyle\sum_{i=1}^2x_i\right)}^2={(x_1+x_2)}^2$ $={x_1}^2+2x_1x_2+{x_2}^2$

となり、 $x_1x_2=0$ でない限りは等号が成立しません。

またこの定理により、 $\sum$ 計算の線形性という重要な性質が成り立つことがわかります。

系　 $\sum$ の線形性

定数 $a,b$ に対し

$\displaystyle\sum_{i=1}^n(ax_i+by_i)=a\displaystyle\sum_{i=1}^nx_i+b\displaystyle\sum_{i=1}^ny_i$

証明

$\sum$ の性質 $(2)(3)$ をまとめた表記であるので直ちに従う。

$\Box$

この線形性により直感的で簡単に計算ができるようになります。

今後 $\sum$ を頻繁に使うので上の性質は覚えておいてください。

2020-11-28

本ブログの目的

「文系」と言われたときに、どのようなイメージを抱くでしょうか。

「理科や数学を使わない」というイメージを持つ方も少なくないでしょう。

またそのようなイメージから、数学が苦手だからという理由で文系を選択する高校生も多い。

しかし、それは大きな誤解です。

もちろん、理科や数学を全く使わない文系学問もあります。

ですが、経済学や心理学、人類学など少なくない種類の文系の学問で統計学、すなわち数学がフル活用されているのです。

本屋やインターネット上にも、文系学問のための統計に関する書籍やサイトが多数存在します。

一見とても充実しているようですが、これらは原理的、数学的なことに触れずに応用だけに言及されたものか、あるいは完全に数学的な解説に偏ったものかの両極端が圧倒的多数で、その中間となるようなものは多くありません。

その弊害か、統計を活用する分野の多くの文系学生がよく理解しないまま統計分析を行ったりという光景を目にします。これは健全な統計に対する態度とは言えないでしょう。

それに加えて、現在ある文系向けの統計学の本の数学的な記述の中には当然のように極限や微分積分、偏微分や重積分などが用いられることも多くあり、ほとんどの文系学生が多くとも数学ⅠA・ⅡB、中には数学ⅠA・Ⅱまでしか履修していない者もいるという現状が考慮されているとは言えません。

そこで本ブログでは

①文系学生が統計学について学ぶことを想定したうえで、応用に偏るのではなく、数学的な裏付けをできる限り紹介しながら解説する

②高校から大学の接続を考慮して、前提知識を数学ⅠA・Ⅱ（現行学習指導要領）までとし、それより進んだ数学的知識についてはその都度解説する

の２点を心掛けて作成してまいります。

さらに「文系学生を想定」とひとくくりにしても、分野によって多種多様な統計学が活用されています。そこで本ブログでは、主に中の人の専攻である心理学に焦点を当て、そこで用いられる基本的な統計学について解説していきます。

またこのようにブログの対象を設定することの目的はもう一つあります。平成30年告示改訂学習指導要領では、『統計的な推測』が数学Bで（事実上）必修になります。そこで学ぶ高校生や指導する数学の先生方が本ブログを読むことが、単なる数学的な側面ではなく、特に文系領域で応用される統計学という側面にも触れることができ、より多角的な理解の助けになるでしょう（そうなれるようなブログの編集に努めます）。

このブログによって多くの方が統計についてよく理解し、統計学、数学の奥深さを知ることを願って、そのようなブログにできるよう努力してまいります。