節約と資産運用を考えるブログ

将来のために、節約と資産運用をはじめました。 まだまだ勉強中ですので、誤った情報があると思いますので、ご注意ください。

統計学

統計検定の試験日が近づいてきました。
今回の記事も、統計検定2級でよく出題されるテーマを整理します。

本日は、「適合度の検定」です。

理論から計算された期待度数と、実際のデータの度数を比べ、
適合しているかどうかを検定する方法です。


統計量は、下記のように計算できます。

X = { (O1 - E1)^2 / E1 } + { (O2 - E2)^2 / E2 } + ・・・

Oは実際のデータの度数、Eは期待度数です。


実際の度数が期待度数からどれだけ離れているかを計算し、全部足したものが統計量ですね。
自由度は、カテゴリーの数から1を引いた数(k-1)です。

実際の問題を解くには、上記の式は覚えておかなければなりません。
1元配置分散分析よりは簡単だと思い、がんばって覚えます( -д-)ノ


さて、「適合度の検定」を覚えたら、「独立性の検定」もセットで覚えると便利です。
適合度の検定ではカテゴリーが1種類であったのに対し、
独立性の検定ではカテゴリーが2種類あることが違いです。

例えば、カテゴリーAが性別(男性・女性)。
カテゴリーBが年代(10代、20代、30代)。

カテゴリーの組み合わせは、2×3=6種類あります。
そのため、期待度数も6個、実際のデータの度数も6個あります。


統計量は、「適合度の検定」と同じように計算できます。

X = { (O1 - E1)^2 / E1 } + { (O2 - E2)^2 / E2 } + ・・・

Oは実際のデータの度数、Eは期待度数です。


「適合度の検定」と同じく、実際の度数が期待度数からどれだけ離れているかを計算し、全部足したものが統計量ですね。

自由度の計算だけが、注意が必要です。
「適合度の検定」の場合は、カテゴリーが1種類でしたので、カテゴリーの数から1を引いた数(k-1)でした。
しかし、「独立性の検定」の場合は、カテゴリーが2種類あるので、それぞれのカテゴリーの数から1を引いた数を掛け合わせます。(k-1)×(r-1)

上の、性別と年代の例でいうと、
(2-1)×(3-1)=2
となります。


「適合度の検定」と「独立性の検定」は同時に覚えたほうが効率的ですね( ´∀`)つ




統計検定2級でよく出るテーマをまとめています。
今回は、やや難しい内容。
1元配置分散分析をまとめます。

1元配置分散分析は、水準間に差があるかないかを分析する方法です。

統計量は、F={ Sa / s^2 / (a-1) } / { Se / s^2 / (n-a) }

Saは水準間平方和、Seは残差平方和です。


長くて覚えにくいです。



ただ、過去問の傾向を見ていると、統計検定2級に出てくる問題は、
正しい統計量を選択する問題か、出力された結果を読み解く問題です。

正しい統計量を選択するだけなら、統計量のポイントだけを抑えておけば大丈夫です。
ポイントをまとめると、
  1. Sa(水準間平方和)は分子。
  2. Se(残差平方和)は分母。
  3. Sa(水準間平方和)の自由度は(a-1)。
  4. Se(残差平方和)の自由度は(n-a)。

ポイント1とポイント2はセットで覚えれそうです。
帰無仮説が「水準間の差がない」ですので、水準間の差が大きければFが大きくなる必要があります。
そのため、統計量Fの分子にSa(水準間平方和)が来る必要があります。
残ったSe(残差平方和)は分母になります。

ポイント3とポイント4もセットで覚えてみます。
aは水準の数ですので、関連があるSa(水準間平方和)の自由度で使う。
nは全データ数なので、関連があるSe(残差平方和)の自由度で使う。

この4点を覚えれば、統計量Fの形を選択できそうです。



出力された結果の解読は、特に問題ないので、落とさないように気を付けます。



統計検定の試験日まで、出題率の高い問題を整理しています。
完全に、自分のメモ用ですが、受験予定の方はご参考にしてください。


今回は、ベイズの定理。
事前確率を事後確率に変換する定理です。
数式も難しくて、覚えにくい。。。(´;ω;`)


そこで、下の図のように、イメージで覚えることにしました。

ベイズの定理
具体的な例で説明してみます。
  • A工場で商品の60%を生産している。
  • B工場で商品の40%を生産している。
  • A工場の商品の5%が不良品(a)。
  • B工場の商品の3%が不良品(b)。
こんな設定があり、「不良品が見つかった場合、A工場が原因の確率は何%でしょうか?」というような問題が出題されます。

ベイズの定理を覚えていれば、代入して計算するだけです。
しかし、覚えていない場合は、どうすればよいでしょうか?

私は「a/(a+b)を計算する」と覚えています。
不良品が見つかったのだから、赤丸内だけの話です。
後は、赤丸内でaが占める割合を求めるだけと考えています。

結局はベイズの定理を図にしただけですが、私にはこの覚え方のほうが合っていました。
「統計検定2級の問題を解く」ということなら、これで十分そうです。(*・ω・)ノ



統計検定の試験日2018年11月25日が近づいてきました。
過去問を解きながら、間違えて問題を見直すという、コツコツとした勉強をしています。
ちなみに、過去問はこちらを使っています。



6回分の過去問が収録されていますが、
何回か解いていると、出題パターンがあることに気づきます。

特に、「この種類の問題は必ず出題される」というものがあります。
試験日まであとわずかなので、そのあたりをまとめておきたいと思います。
(完全に自分のメモ用ですが、試験を受ける方はご参考にしてください( ´∀`)つ)


まずは、知っているか知っていないかの知識系問題。
標本調査の抽出法に関する問題です。

標本調査の抽出法は下記の5種類があります。
  1. 単純無作為抽出法
  2. 系統抽出法
  3. 層化無作為抽出法
  4. 多段抽出法
  5. クラスター(集落)抽出法

それぞれの特徴をまとめると・・・

<単純無作為抽出法>
  • 母集団からランダムに抽出する。
<系統抽出法>
  • 母集団の個体に番号を付け、等間隔に抽出する。
  • 個体の並び方に規則性がある場合は、偏った標本になる。
<層化無作為抽出法>
  • 母集団をいくつかの層に分け、各層ごとにランダムに抽出する。
  • 例えば、母集団を年齢や性別の層に分ける場合がある。
  • すべての層(年齢や性別)を同じサイズで抽出することができる。(単純無作為抽出法だと性別や年齢が偏る場合もある)
<多段抽出法>
  • 抽出単位を何段階かに分けて抽出する。
  • 例えば、県→市→学校というように抽出する場合がある。
  • 調査対象が大規模な場合、抽出の手間を省くことができる。
  • 段階を多くすると、標本が偏る可能性が高くなる。
<クラスター(集落)抽出法>
  • 母集団を小集団(クラスター)に分割し、いくつかのクラスターを抽出する。抽出されたクラスターに含まれる個体全件を抽出する。
  • 抽出の手間を省くことができる。
  • 精度は低下する。


問題として出題されるのは、上記の特徴についての正誤問題。
計算は不要で、知っているか知らないかだけです。
間違えたくない問題ですね。


「単純無作為抽出法」、「多段抽出法」、「クラスター(集落)抽出法」は、
名前と内容が一致しているので、覚えやすいです。

それに対して、「系統抽出法」と「層化無作為抽出法」は、
名前から内容が思い浮かばない。。。


こんなときは、無理やりイメージを作り出すのが良さそうです。

「系統」といえば、私は「市バスの系統」を思い出しました。
「1系統は〇〇行」、「2系統は△△行」という感じで、番号が振られています。
ということで、「系統抽出法は番号を振る抽出法」とイメージしました。

「層化無作為抽出法」は、「層」がキーワードです。
「10代の人」、「20代の人」、「30代の人」・・・と人が層のように積みあがっているイメージをしました。
「層」の文字を見たら、そのイメージを思い出し、「年代とかの情報を利用する抽出法」とつなげることにしました。


こんな感じでうまくいくかは分かりませんが、
抽出法の問題については、これで終わりにします(*・ω・)ノ


統計検定の公式テキストは難しいです。
そのため、統計検定2級に役立つ本をご紹介します。

まずは、この本がおすすめです。
はじめての統計学
鳥居 泰彦
日本経済新聞社



仮説検定を、Step1・Step2・・・という感じで、手順ごとに整理しています。
また、「母分散が分かっているときは、Z検定」などのように、
どのときにどの検定を使うかの一覧があるので、全体像がつかみやすいです。


ただし、単純な平均と分散の検定だけなので、統計検定2級の内容すべてはカバーできていません。
回帰分析も一番単純な単回帰分析のみを扱っています。



そこで、次に読む本としておすすめはこちら。
基本統計学 第2版
豊田 利久
東洋経済新報社
2002-04


2つの母集団の平均差の検定など、応用的な検定も解説されています。
ちょうど統計検定2級と同じレベルの内容です。
練習問題も豊富なので、問題を解きながら勉強するには最適です。


回帰分析の問題については、統計ソフトでの出力結果を読むことができれば問題は解けます。
しかし、統計ソフトが計算している方法を理解したい場合は、統計学の本の回帰分析の章を読む必要があります。
もし読んでみたけど分からないという場合は、こちらの本がおすすめです。

例題で学ぶ初歩からの計量経済学
白砂 堤津耶
日本評論社
2007-03-30


エクセル上で実際に計算しながら、回帰分析を学ぶことができます。
数式だけではイメージしにくかった計算過程も、エクセルでひとつひとつ計算すると理解しやすくなります。
統計検定2級合格に必須ではないですが、回帰分析をしっかりと理解したい場合にはおすすめです。


↑このページのトップヘ