このページでは基本統計量となる分散・標準偏差について学んでいきましょう。
分散・標準偏差とはいったいなんなのでしょうか。

以前、平均・中央値・最頻値について教えてもらいました。
今回教えてもらう分散・標準偏差もこれらに関係するものなんですか。

以前習った平均・中央値・最頻値のうち、平均は簡単に言うとデータの真ん中を数値で表すためのものでした。
今回紹介する分散・標準偏差は平均からデータがどれぐらい散らばっているのかを表すものです。
解説していきますね!
下の図で青いグラフとオレンジ色のグラフはともに「平均50」となるデータを集めたグラフです。
平均は同じ50でも「データの散らばり方」が違うので異なるグラフとなっています。


平均が同じでもデータの散らばり方が違えば、データの分布の幅が大きく異なっていますね!
それでは、データの散らばり方を数値で表す分散・標準偏差について詳しくみていきましょう。
分散とは
分散とは複数のデータ数値において、各値と平均の差を2乗したものを全て足し合わせて、数値の個数(標本の大きさ)で割った値のことです。
数式で表すと以下のようになります。


以下の表で実際に分散を計算してみましょう。

この表は「ごまこのクラスの算数のテストの点数」です。
まず、ごまこのクラスの算数のテストについて、点数の平均は以下のようになります。

この平均を用いて、分散を計算すると以下のようになります。


がんばって計算してみました!
手計算だと計算間違いしてしまいそうです。

ぼくもそう思いますね。
でも実際に統計的に分析する時にはコンピュータを使って計算することが多いから計算の仕方と考え方を知っていれば大丈夫ですよ。
でもテストの時には手計算..大変です。
続けて、標準偏差についても解説していきます。
標準偏差とは
標準偏差とは、分散を√ (ルート)で囲って求めるもので、分散と同様に平均からのデータのばらつきをあらわす値です。
式で表すと以下のようになります。

さきほどの「ごまこのクラスの算数のテストの点数表」で実際に標準偏差を求めてみましょう。

上記、「分散とは」と同様に分散を求めます。
これを元に標準偏差を求めると以下のようになります。



標準偏差を求めることができました!
ルートを使うから関数電卓やパソコンの電卓を使うのが良いですね!
でも分散も標準偏差もデータのばらつきを表すのにどうして二種類の指標があるんですか?

ごまこはいつも良いところに気がつきますね。
では以下で分散と標準偏差の違いについて詳しく解説していきます。
分散と標準偏差の違い
上記の例と同様に「ごまこのクラスの算数のテストの点数」を用いて考えていきます。

上記の通り、分散と標準偏差はそれぞれ求められますが、この時それぞれの単位はどうなっているでしょうか。
分散は分子において、各値(点)と平均(点)の差を2乗したもので「点の2乗」になってしまいます。
よって、分散の単位は「点の2乗」となってしまいます。

一方、標準偏差は分散を√ (ルート)で囲って求めるので単位は「点」になります。
点数(単位は「点」)のばらつきを考える時にはどちらが扱いやすいでしょうか。
標準偏差のほうが扱うデータの単位と同じ「点」なので直感的にわかりやすいのです。


標準偏差のほうが扱うデータと同じ単位になるから分散よりも直観的に扱いやすいんですね。

その通りです!
実際にデータのばらつきを考える時には標準偏差を使って比較すると分かりやすいですね。
でも数学的に統計を理解する上でも分散は大事な考え方だから、分散も標準偏差もきちんと理解しておく必要がありますよ。
まとめ
今回は統計学を学ぶ上で基本となる分散と標準偏差について学びました。
データの特性を知るうえで、分散・標準偏差はとても重要な指標です。
また計算方法とともに分散と標準偏差の関係についても理解を深めていただければと思います。
そして、統計を表現する上での基本統計量としては他にも平均・中央値・最頻値といったものもありますので、以下を参考にしてください。
最後に、手計算ではなくコンピュータの力を使って計算させたいという方は以下の記事を参照ください。
このサイトの記事一覧へは以下へアクセス!
コメント