節約と資産運用を考えるブログ

将来のために、節約と資産運用をはじめました。 まだまだ勉強中ですので、誤った情報があると思いますので、ご注意ください。

統計学

2019年の目標のひとつ。
「Pythonを勉強して、統計分析に使えるようにする」という目標があります。

全くの初心者なので、最初の具体的な目標として、この試験の合格を目指そうと思います。

「Python3エンジニア認定基礎試験」
公式サイトの詳細はこちら

CBT試験で、Pythonの文法基礎が40問出題されます。
テキストは「Pythonチュートリアル第3版」が指定されています。
Pythonチュートリアル 第3版
Guido van Rossum
オライリージャパン
2016-03-24



受験料が1万円と高いですが、勉強の取っ掛かりとしては良いのではと考えています(*・ω・)ノ



放送大学統計学の試験が終わりました。
統計検定2級に比べると、かなり簡単でした。

テキスト、ノート、電卓が持ち込み可能。
特に、テキストと電卓は必携となっています。
しかし、テキストも電卓も使わなくて解けます。
そのくらい簡単。

授業では難しい内容も扱いますが、50%くらいの理解度でも合格できそうです(*´ω`*)


今回は、主成分分析と因子分析です。
どちらも、複数の変数を、少数の変数に集約するための手法です。

それぞれの特徴は、

主成分分析
  • 複数の変数を組み合わせて、集約した新しい変数を作成する。
  • 最も分散が大きくなるように作成した変数を第1主成分という。
  • 第1主成分と相関がゼロとなる変数を第2主成分という。

因子分析
  • 複数の変数を生み出す要因となる、少数の変数(因子)を作成する。
  • 確率モデルを仮定し、因子を推定する。
テキストでの解説はこの程度で、具体的な計算方法は記載されていません。
各分析手法の違いの正誤問題などがでそうですね。


放送大学「統計学」に、ロジスティック回帰分析が出てきます。
ロジスティック回帰分析は、統計検定2級では出題されない分野です。

ロジスティック回帰分析の特徴をまとめると、以下のようになります。
  • 被説明変数(Y)が、2値データ。
  • ロジット変換により、2値データを連続データに変換する。
  • 最尤法によりパラメータを推定する。
  • eの推定されたパラメータ乗が、オッズ比となる。
パラメータの推計は電卓ではできないので、試験問題には出題されないでしょう。
おそらく、推計結果の解釈かと思います。

とくに、オッズ比が重要そうです。
例えば、病気と喫煙の関係をしめした、下記のような式。

病気の有無 = 0.9×(喫煙の有無)

e^0.9=2.46は、喫煙することで病気になる確率が2.46倍となることを意味します。

通常の回帰分析とは解釈の仕方が異なるので、注意が必要です。


しかし、それ以外は試験に出そうにないので、この点だけを抑えれば良さそうです。



統計検定2級の勉強と並行して、放送大学の「統計学」も科目履修しています。
「統計学」の期末試験が今週末1月27日(日)なので、試験対策を始めています。

とはいっても、統計検定2級よりは簡単そうなので、少しサボっています・・・( -д-)ノ
テキストとノートが持ち込み可能。
授業内容も統計検定2級よりは範囲が広いですが、個別の内容は統計検定2級よりも簡単です。
歪度や尖度も出てきていません。

しかしながら、油断は禁物なので、期末試験日まで授業内容を整理しておこうと思います。




テキストを大まかに区分すると、
  1. 確率(確率計算・平均・分散)
  2. 確率分布と推定・検定(二項分布・多項分布・ポアソン分布・正規分布)
  3. 回帰分析・重回帰分析
  4. モデル選択
  5. ロジスティック回帰分析
  6. 主成分分析・因子分析
という感じです。

1~3は統計検定2級でも扱っている内容です。
1は単純な確率の計算。
ベイズの定理や平均分散などの公式が分かれば解けます。
テキスト持ち込みなので、どこに公式が書かれているかを覚えておけば大丈夫。

2は各分布を使った推定や検定の問題。
95%信頼区間の計算方法と、各種検定方法が分かれば解けます。
検定方法として記載されているのは、これらです。
  • ピアソンのカイ二乗統計量(多項分布での観測度数と期待度数の比較)
  • 散布度の検定(データにポアソン分布が適用できるか)
  • 正規分布での平均・分散の検定
  • 平均差・平均比率の検定
  • 一元配置分散分析
どれも統計検定2級で出てきました。
今回はテキストが持ち込めるので、意味や使い方だけを覚えれば大丈夫です。
具体的な公式はテキストを見ることができます。

3も単純な回帰分析の内容です。
パラメータの推定方法もテキストに記載されているので、覚える必要はないです。


さて、4~6が統計検定2級の範囲外。
これらも公式はテキストに記載されているので、覚える必要はありません。
しかし、使い方の注意点や結果の解釈は理解しておく必要があります。
試験当日までに、この辺りを重点的にまとめていこうと思います。(*・ω・)ノ



↑このページのトップヘ