このページでは統計学を学んでいく上で重要な考え方となる「母集団・標本」について学んでいきましょう。
統計における母集団・標本とはなんでしょうか。
統計というとたくさんのデータからいろんな分析を行ったりするためのものというイメージがあります。
そのイメージは合ってますね。
でも分析していく上でまずは押さえておく必要がある統計学の考え方があります。
どんどん分析していきたい!っていう気持ちはまずは置いておいて、今回は母集団・標本についてしっかり勉強していきましょう!
そもそも全てのデータを手に入れることはできるのか
ごまこと一緒に母集団・標本について学んでいく上でまずは統計分析するための全てのデータを手に入れることができるのかについて考えてみましょう。例としてテレビの視聴率を元に考えてみましょう。
あなたはテレビ局の社員で、昨日放送の看板番組「もきゅもきゅ!アザラシワールド」の東京都内での視聴率を知りたいとします。
ところが、東京都の人口は約1400万人、約700万世帯が暮らしています。
1400万人の人たちがテレビで「もきゅもきゅ!アザラシワールド」を見ているかを一軒一軒調べていくのは現実的じゃないですね..
金銭的にも時間を考えても現実的ではありませんね。
でも一部の人を調べることで東京都民全体のどれぐらいの人が「もきゅもきゅ!アザラシワールド」を見てるのか分かったら素敵ですよね。
実際には視聴率の調査では東京都内で視聴率を調べる機械を設置したりしているテレビは数千世帯と言われています。
つまり、東京都の人口は約1400万人、約700万世帯のすべての視聴状況を調査しているわけではなく、数千世帯分の視聴状況を調査し東京都民全体の視聴状況を推定しているのが現実です。
この例からもわかる通り、統計学とは分析するために必要な全てのデータを手に入れることは現実的に不可能なので、一部のデータからデータ全体を推測する学問であると考えましょう。
母集団・標本
母集団とは調査対象となる集団全体のことを言います。
上記の例だと東京都民全体のテレビの視聴状況が母集団のデータになります。
また、標本とは母集団から抽出した母集団の部分的な集合のことです。
上記の例だと東京都内で視聴率を調べる機械を設置している数千世帯が標本のデータになります。
上述の通り、母集団(例だと東京都民全体のテレビの視聴状況)を直接調べることはできないので、標本(例だと東京都内で視聴率を調べる機械を設置している数千世帯が標本のデータ)から母集団全体を推測していくことになります。
なんとなくイメージをつかめてきました。
例えば、ニュースでよく言っている支持政党などの国勢調査も日本国民に全員に聞いていくことはできないから、一部の人の意見から推測しているんですか。
良い例を思いつきましたね!
国勢調査も数千人にランダムに電話でインタビューして国民全体の意見を推測しているんですよ。
みなさんもイメージが掴めたでしょうか。
ここで母集団から標本を抽出する上で大切なことに触れておきたいと思います。
標本を抽出するときには偏ったデータを抽出しない
話を東京都民全体のテレビの視聴状況を調べる例に戻します。
テレビ局の社員であるあなたは東京都民全体の視聴率を調べる際に、標本を「テレビ局の近くの世田谷区の人」からだけ抽出して推測したとします。
この時、本当に東京都民全体の視聴状況を調べることができているでしょうか。
東京都も広いし、世田谷区以外にもたくさんの市区町村がありますよね。
環境も違うから東京都民全体の視聴状況を推測できていない気がします。
その通りです!
東京都民を母集団と考えると、その標本は東京都民全体からまんべんなくランダムにデータを選ばないと正確な推測ができないですよね。
実際に統計処理を行いたい際には分析に用いる標本データの質によって分析結果の精度に大きな差が表れます。
正しい分析を行うためにも、標本を抽出するときには偏ったデータを抽出しないように心がけましょう。
まとめ
統計学を学ぶ上で大切な考え方となる母集団・標本について学びました。
統計を用いて物事を捉える際には標本から母集団全体の特性を考えることが重要です。
このページの例を元に母集団と標本の関係を理解していただければと思います。
このサイトの記事一覧へは以下へアクセス!
コメント