文系だって統計がしたい

文系大学生を想定して統計学の解説をします。

【記述統計】代表値(2)―平均値、合成変数の平均、仮平均―

平均値

前回(【記述統計】代表値(1)ー中央値ー - 文系だって統計がしたい)は、妥当な代表値を考えるために

\displaystyle\sum_{i=1}^n|x_i-t|

が最小となるようなtを考えて、中央値というものを設定しました。

 

5人のテストの点数

20, 45, 75, 80, 90

の中央値は75です。

しかしこれは 45, 75, 80, 90の4つのデータとある程度近く、代表値としてよく表せている気がしますが、最低点の20とは55も離れています。

 よって、大きく外れた値も反映させた代表値を考えたいというモチベーションが湧いてきます。

 

そこで、\displaystyle\sum_{i=1}^n|x_i-t|の代わりに

\displaystyle\sum_{i=1}^n{|x_i-t|}^2=\sum_{i=1}^n{(x_i-t)}^2

 を最小化することを考えます。

2乗した理由は、より大きく外れた差の影響力を増幅させるためです。小さい数を2乗させるより大きい数を2乗させる方がより大きく増加します。

 

 ここで、天下り的ですが

\displaystyle\overline{x}:=\frac{1}{n}\sum_{i=1}^nx_i

 と定義される量\overline{x}を考えます。これを用いると

\displaystyle\sum_{i=1}^n{(x_i-t)}^2=\sum_{i=1}^n{(x_i-\overline{x}+\overline{x}-t)}^2=\sum_{i=1}^n{\left\{(x_i-\overline{x})+(\overline{x}-t)\right\}}^2

 第2項で-\overline{x}+\overline{x}を挿入していますが、これは結局0なので上の等式が成り立ちます。

これを展開して

=\displaystyle\sum_{i=1}^n\left\{{(x_i-\overline{x})}^2+2(x_i-\overline{x})(\overline{x}-t)+{(\overline{x}-t)}^2\right\}
=\displaystyle\sum_{i=1}^n{(x_i-\overline{x})}^2+2\sum_{i=1}^n(x_i-\overline{x})(\overline{x}-t)+\sum_{i=1}^n{(\overline{x}-t)}^2

 ここで第2項を計算すると

\displaystyle2\sum_{i=1}^n(x_i-\overline{x})(\overline{x}-t)=2(\overline{x}-t)\sum_{i=1}^n(x_i-\overline{x})
\displaystyle=2(\overline{x}-t)(\sum_{i=1}^nx_i-\sum_{i=1}^n\overline{x})
\displaystyle=2(\overline{x}-t)(n\cdot\frac{1}{n}\sum_{i=1}^nx_i-n\overline{x})
\displaystyle=2(\overline{x}-t)(n\overline{x}-n\overline{x})=0

 となって消えるので、

\displaystyle\sum_{i=1}^n{(x_i-t)}^2=\sum_{i=1}^n{(x_i-\overline{x})}^2+\sum_{i=1}^n{(\overline{x}-t)}^2=\sum_{i=1}^n{(x_i-\overline{x})}^2+n{(\overline{x}-t)}^2

 となります。tをうまく設定してこれを最小化するには、右辺の第2項が0になるようにすればよく、結局

t=\overline{x}

 とすればよさそうです。

この\overline{x}平均値といい、これは中央値よりも、分布の全体から大きく外れた値(はずれ値)を反映させた代表値となります。

 

定義 平均値
x_1,\cdots , x_nn個のデータの平均値を
\displaystyle\overline{x}:=\frac{1}{n}\sum_{i=1}^nx_i
と定める。

 

平均値は中央値と比べてはずれ値の影響を受けやすいことは十分に考慮されるべきことです。

たとえば10人の友だちグループのうち、9人がお小遣いとして毎月2,000円をもらっていて、残りの1人が50,000円をもらっているとしましょう。この10人のお小遣いの平均値を計算すると

\displaystyle\frac{9\cdot2000+1\cdot50000}{10}=6800

となります。 このような場合に平均値を分布の代表とするのは適切かと言われると微妙です。中央値と平均値両方を比べることで、どのような分布なのかを考える必要があります。

 

合成変数の平均

ある学校で数学の単元テストと、その学期の期末テストを行ったとしましょう。

単元テストはあくまで定着度合いを確認する目的なので、期末テストの配点を重くして成績をつけることにします。その重みづけの配分を2:3で行うとき、i番目の生徒の成績v_iは、単元テストの得点をx_i、期末テストの得点をy_iとすると

v_i=2x_i+3y_i

 と得点化されます。

 このように変換した新たな変数v_iの平均値\overline{v}は、x,yのデータを用いて表せないのでしょうか。

 

定理 合成変数の平均
x_1,\cdots , x_ny_1,\cdots,y_nの2種類のn個のデータの平均値をそれぞれ\overline{x},\overline{y}とする。このとき、x_i,y_iと定数a,bを用いた新たな変数
v_i=ax_i+by_i
の平均値\overline{v}
\overline{v}=a\overline{x}+b\overline{y}
で表される。

証明

平均値の定義によって

\displaystyle\overline{v}=\frac{1}{n}\sum_{i=1}^nv_i=\frac{1}{n}\sum_{i=1}^n(ax_i+by_i)
\displaystyle=\frac{1}{n}(a\sum_{i=1}^nx_i+b\sum_{i=1}^ny_i)
\displaystyle=a\cdot\frac{1}{n}\sum_{i=1}^nx_i+b\cdot\frac{1}{n}\sum_{i=1}^ny_i
=a\overline{x}+b\overline{y}~~~~~~~~~~~~~~~~~~~~~~~~

\Box

これは、平均値の計算が線形であることを意味します。

 

さらに、次が成り立ちます。

 

定理 合併集団の平均
i番目の集団での平均値を\overline{x_{i}}とし、i番目の集団のデータの個数をn_iとする。このとき、1番目からm番目までの集団を合併させた集団全体の平均値\overline{x_{union}}
\displaystyle\overline{x_{union}}=\frac{\displaystyle\sum_{i=1}^mn_i\overline{x_i}}{\displaystyle\sum_{i=1}^mn_i}
で表される。たとえば、2つの集団の合併での平均値は
\displaystyle\frac{n_1\overline{x_1}+n_2\overline{x_2}}{n_1+n_2}
で与えられる。

証明

i番目の集団のj番目のデータをx_{ij}と書くことにすると、\overline{x_{union}}の定義によって

\displaystyle\overline{x_{union}}=\frac{\displaystyle\sum_{i=1}^m\left(x_{i1}+x_{i2}+\cdots+x_{in_i}\right)}{\displaystyle\sum_{i=1}^mn_i}=\frac{\displaystyle\sum_{i=1}^m\left(\sum_{j=1}^{n_i}x_{ij}\right)}{\displaystyle\sum_{i=1}^mn_i}
=\frac{\displaystyle\sum_{i=1}^m\left(n_i\cdot\frac{1}{n_i}\sum_{j=1}^{n_i}x_{ij}\right)}{\displaystyle\sum_{i=1}^mn_i}=\frac{\displaystyle\sum_{i=1}^mn_i\overline{x_i}}{\displaystyle\sum_{i=1}^mn_i}

\Box

 物理を勉強したことのある方なら、これは質量がn_i、座標が\overline{x_i}であるm個の質点からなる物体の重心の座標となっていることがわかると思います。

 

この定理によって、たとえば人数の異なる複数のクラスに実施したテストの全体の平均点が各クラスの平均点と人数をもとに算出できます。

 

仮平均

 

定理 仮平均
x_1,\cdots , x_nn個からなるデータの平均値を\overline{x}とする。このときx_iの平均値は、定数cを用いて
v_i=x_i-c
と変換された変数の平均\overline{v}によって
\overline{x}=\overline{v}+c
と表される。

証明

合成変数の平均に関する定理により直ちに導かれる。

\Box

 これはたとえば、5人に実施したテストの点数が

60,63,70,80,81

 であったとき、定義に従って平均値を計算しなくても、だいたい70のあたりに平均があるだろうと予想して、各データから70を引いた新たなデータ

-10,-7,0,10,11

 の平均値を計算し、最後に70を足せば平均値が求まるということです。この場合は

\displaystyle\frac{-10+-7+0+10+11}{5}=0.6

 なので、平均点は70+0.6=70.6であることがわかります。