節約と資産運用を考えるブログ

将来のために、節約と資産運用をはじめました。 まだまだ勉強中ですので、誤った情報があると思いますので、ご注意ください。

統計学

下記の本を使用し、過去問を解いてきました。



どのような試験でもいえることですが、出題パターンはあります。
全体の出題パターンを事前に知っていれば、時間配分なども決められるので、有効です。

この記事では、統計検定2級の出題パターンを整理してみます。


私の印象では、3部構成という感じです。

  1. グラフの読み取り
  2. 確率や推定の計算問題
  3. 応用的な検定
最初のパートは、グラフの読み取りです。
度数分布表、箱ひげ図、ヒストグラム、散布図、コレログラムなどを組み合わせて、
読み取れる正しい内容を選択するという問題です。

多少の計算問題も含まれていますが、
中央値の計算や、ラスパイレス指数の計算などです。

ここは時間をかけずに、全問正解を目指したいパートです。


パート2は、主に計算問題です。
期待値や分散、ベイズの定理など、確率に関する計算問題。
また、正規分布やポアソン分布などに当てはめて計算する問題などです。

計算が多くなるので、時間が必要です。
また、問題文が長くなるので、何が問われているのかを理解するのにも時間がかかります。
一瞬で解けるような問題もあれば、考えすぎて泥沼にはまるような問題もあります。
かなり厄介なパートです。


パート3は、応用的な検定問題。
回帰分析、1元配置分散分析、母集団比較、適合度の検定などが該当します。

扱っている内容は応用的な内容ですが、試験問題としては比較的簡単です。
例えば、回帰分析であれば、出力された結果を正しく読み解くだけです。
1元配置分散分析、母集団比較、適合度の検定は、正しい検定量を選択する問題もあるので、
検定量の計算式は覚えている必要があります。
しかし、問題文もシンプルな形なので、問題を見た瞬間に、何が問われているかは分かりやすいです。
その点が、パート2よりも解きやすい理由です。



さて、試験当日はどのように解いていきましょうか。
試験時間は90分なので、下記のような時間配分を考えています。
  1. パート1:20分くらいで全問正解を目指す。
  2. パート3:20分くらいで全問正解を目指す。
  3. パート2:20分くらいでわかる問題を確実に解く。
  4. 見直し:20分くらいかけて、じっくりと見直す。
パート1とパート3は得点源と位置づけています。
できるだけ時間をかけずに、解き進めたいです。

パート2は泥沼を避けながら、分かる問題を選別したいと思います。

特に重要なのが、見直し時間と考えています。
マークシートなので、単純な計算ミスや選択ミスであっても部分点はありません。
「いかに高得点を取るか」よりも、「いかにミスをなくすか」という点を重視したいです。



こんなことを書いていると本番らしくなってきますね。
緊張してきました(`・д・´)



統計検定の試験日が近づいてきました。
今回の記事も、統計検定2級でよく出題されるテーマを整理します。

本日は、「適合度の検定」です。

理論から計算された期待度数と、実際のデータの度数を比べ、
適合しているかどうかを検定する方法です。


統計量は、下記のように計算できます。

X = { (O1 - E1)^2 / E1 } + { (O2 - E2)^2 / E2 } + ・・・

Oは実際のデータの度数、Eは期待度数です。


実際の度数が期待度数からどれだけ離れているかを計算し、全部足したものが統計量ですね。
自由度は、カテゴリーの数から1を引いた数(k-1)です。

実際の問題を解くには、上記の式は覚えておかなければなりません。
1元配置分散分析よりは簡単だと思い、がんばって覚えます( -д-)ノ


さて、「適合度の検定」を覚えたら、「独立性の検定」もセットで覚えると便利です。
適合度の検定ではカテゴリーが1種類であったのに対し、
独立性の検定ではカテゴリーが2種類あることが違いです。

例えば、カテゴリーAが性別(男性・女性)。
カテゴリーBが年代(10代、20代、30代)。

カテゴリーの組み合わせは、2×3=6種類あります。
そのため、期待度数も6個、実際のデータの度数も6個あります。


統計量は、「適合度の検定」と同じように計算できます。

X = { (O1 - E1)^2 / E1 } + { (O2 - E2)^2 / E2 } + ・・・

Oは実際のデータの度数、Eは期待度数です。


「適合度の検定」と同じく、実際の度数が期待度数からどれだけ離れているかを計算し、全部足したものが統計量ですね。

自由度の計算だけが、注意が必要です。
「適合度の検定」の場合は、カテゴリーが1種類でしたので、カテゴリーの数から1を引いた数(k-1)でした。
しかし、「独立性の検定」の場合は、カテゴリーが2種類あるので、それぞれのカテゴリーの数から1を引いた数を掛け合わせます。(k-1)×(r-1)

上の、性別と年代の例でいうと、
(2-1)×(3-1)=2
となります。


「適合度の検定」と「独立性の検定」は同時に覚えたほうが効率的ですね( ´∀`)つ




統計検定2級でよく出るテーマをまとめています。
今回は、やや難しい内容。
1元配置分散分析をまとめます。

1元配置分散分析は、水準間に差があるかないかを分析する方法です。

統計量は、F={ Sa / s^2 / (a-1) } / { Se / s^2 / (n-a) }

Saは水準間平方和、Seは残差平方和です。


長くて覚えにくいです。



ただ、過去問の傾向を見ていると、統計検定2級に出てくる問題は、
正しい統計量を選択する問題か、出力された結果を読み解く問題です。

正しい統計量を選択するだけなら、統計量のポイントだけを抑えておけば大丈夫です。
ポイントをまとめると、
  1. Sa(水準間平方和)は分子。
  2. Se(残差平方和)は分母。
  3. Sa(水準間平方和)の自由度は(a-1)。
  4. Se(残差平方和)の自由度は(n-a)。

ポイント1とポイント2はセットで覚えれそうです。
帰無仮説が「水準間の差がない」ですので、水準間の差が大きければFが大きくなる必要があります。
そのため、統計量Fの分子にSa(水準間平方和)が来る必要があります。
残ったSe(残差平方和)は分母になります。

ポイント3とポイント4もセットで覚えてみます。
aは水準の数ですので、関連があるSa(水準間平方和)の自由度で使う。
nは全データ数なので、関連があるSe(残差平方和)の自由度で使う。

この4点を覚えれば、統計量Fの形を選択できそうです。



出力された結果の解読は、特に問題ないので、落とさないように気を付けます。



統計検定の試験日まで、出題率の高い問題を整理しています。
完全に、自分のメモ用ですが、受験予定の方はご参考にしてください。


今回は、ベイズの定理。
事前確率を事後確率に変換する定理です。
数式も難しくて、覚えにくい。。。(´;ω;`)


そこで、下の図のように、イメージで覚えることにしました。

ベイズの定理
具体的な例で説明してみます。
  • A工場で商品の60%を生産している。
  • B工場で商品の40%を生産している。
  • A工場の商品の5%が不良品(a)。
  • B工場の商品の3%が不良品(b)。
こんな設定があり、「不良品が見つかった場合、A工場が原因の確率は何%でしょうか?」というような問題が出題されます。

ベイズの定理を覚えていれば、代入して計算するだけです。
しかし、覚えていない場合は、どうすればよいでしょうか?

私は「a/(a+b)を計算する」と覚えています。
不良品が見つかったのだから、赤丸内だけの話です。
後は、赤丸内でaが占める割合を求めるだけと考えています。

結局はベイズの定理を図にしただけですが、私にはこの覚え方のほうが合っていました。
「統計検定2級の問題を解く」ということなら、これで十分そうです。(*・ω・)ノ



統計検定の試験日2018年11月25日が近づいてきました。
過去問を解きながら、間違えて問題を見直すという、コツコツとした勉強をしています。
ちなみに、過去問はこちらを使っています。



6回分の過去問が収録されていますが、
何回か解いていると、出題パターンがあることに気づきます。

特に、「この種類の問題は必ず出題される」というものがあります。
試験日まであとわずかなので、そのあたりをまとめておきたいと思います。
(完全に自分のメモ用ですが、試験を受ける方はご参考にしてください( ´∀`)つ)


まずは、知っているか知っていないかの知識系問題。
標本調査の抽出法に関する問題です。

標本調査の抽出法は下記の5種類があります。
  1. 単純無作為抽出法
  2. 系統抽出法
  3. 層化無作為抽出法
  4. 多段抽出法
  5. クラスター(集落)抽出法

それぞれの特徴をまとめると・・・

<単純無作為抽出法>
  • 母集団からランダムに抽出する。
<系統抽出法>
  • 母集団の個体に番号を付け、等間隔に抽出する。
  • 個体の並び方に規則性がある場合は、偏った標本になる。
<層化無作為抽出法>
  • 母集団をいくつかの層に分け、各層ごとにランダムに抽出する。
  • 例えば、母集団を年齢や性別の層に分ける場合がある。
  • すべての層(年齢や性別)を同じサイズで抽出することができる。(単純無作為抽出法だと性別や年齢が偏る場合もある)
<多段抽出法>
  • 抽出単位を何段階かに分けて抽出する。
  • 例えば、県→市→学校というように抽出する場合がある。
  • 調査対象が大規模な場合、抽出の手間を省くことができる。
  • 段階を多くすると、標本が偏る可能性が高くなる。
<クラスター(集落)抽出法>
  • 母集団を小集団(クラスター)に分割し、いくつかのクラスターを抽出する。抽出されたクラスターに含まれる個体全件を抽出する。
  • 抽出の手間を省くことができる。
  • 精度は低下する。


問題として出題されるのは、上記の特徴についての正誤問題。
計算は不要で、知っているか知らないかだけです。
間違えたくない問題ですね。


「単純無作為抽出法」、「多段抽出法」、「クラスター(集落)抽出法」は、
名前と内容が一致しているので、覚えやすいです。

それに対して、「系統抽出法」と「層化無作為抽出法」は、
名前から内容が思い浮かばない。。。


こんなときは、無理やりイメージを作り出すのが良さそうです。

「系統」といえば、私は「市バスの系統」を思い出しました。
「1系統は〇〇行」、「2系統は△△行」という感じで、番号が振られています。
ということで、「系統抽出法は番号を振る抽出法」とイメージしました。

「層化無作為抽出法」は、「層」がキーワードです。
「10代の人」、「20代の人」、「30代の人」・・・と人が層のように積みあがっているイメージをしました。
「層」の文字を見たら、そのイメージを思い出し、「年代とかの情報を利用する抽出法」とつなげることにしました。


こんな感じでうまくいくかは分かりませんが、
抽出法の問題については、これで終わりにします(*・ω・)ノ


↑このページのトップヘ