→数学・物理
→データサイエンス
→AI/機械学習
統計学の本/動画、学習コンテンツなど†
統計学と機械学習†
- 結局、機械学習と統計学は何が違うのか? 2018.5
- 統計も機械学習もデータサイエンスへ貢献しているという点では変わりないのですが、ゴールが違い貢献の仕方も違います。手法や理論は重なる部分があるかもしれませんが、その目的はまったく違います。ですので、機械学習を「応用統計」と呼ぶのは誤解の元ですし、二つのそれぞれの分野に対しての侮辱です。
多変量解析/パラメータ推定†
回帰分析†
- プロでもよくある線形回帰モデルの間違い - Qiita 2022.8
- 線形性の仮定が満たされていないので、線形回帰モデルを使ってはいけない
- 残差が正規分布&等分散ではないので、線形回帰モデルを使ってはいけない
- 回帰係数に対するt検定の結果をもとに、p値が大きい説明変数を除外する
- 多重共線性があるとよくないので、変数間で相関が強い、もしくはVIF値が大きい変数を除外する
- AICが小さくなるように変数を選択する
- Lasso回帰で変数を選択する
- これらは、線形回帰モデルを「原因と結果の関係を推定」するために用いる場合は、どれも間違っているか解説が不足している
ベイズ推定、最尤法など†
確率一般†
確率密度†
- 確率密度関数〜具体例と図による説明〜 - Qiita 2019
- 各区間に属する確率はヒストグラムをめちゃくちゃ細かく区切ってヒストグラムの縦軸の値を全体のサンプル数で割ることによって得られる.
- 確率は区間の大きさを無限小に近づけることで0でない大きさの区間を持つ連続値に対しては各区間の確率が0に収束する.
- 確率が0になってしまうと情報が得られないため,各区間の大きさで割ることによって,その区間のサンプル数の密度を求めて,それを確率密度とした.
R言語†
→Python関連
- 「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ 2022.10
- 例えば一連のデータ分析作業をバッチ処理にしてシステム上で回すというケースでは、Pythonの方が使いやすい
- 「説明」を目的とする統計学的な処理はRの方がPythonよりも使いやすい
- 例えば「バルクでCSVファイルに格納されたデータを都度貰ってはその度ごとにデータの性質を精査し、その性質に応じてカスタマイズされた分析処理をする」みたいなケースではRの方がやりやすい
- 「予測」を目的とする機械学習的な処理はPythonの方がRよりも使いやすい
- ベイジアンは以前とは異なりRとPythonとで差がなくなってきているが、まだRの方が比較的楽
- Deep LearningはむしろRで使えるフレームワークが殆どなくPythonが必須に近い
- 統計分析・機械学習であってもソフトウェア開発を本業にするならC++など速い言語が必須
- 結論から言うと「その時々のテーマと必要に応じてRとPythonを巧みに使い分けるべし、そのためにも両方とも習得しておこう」というのが僕の個人的な回答です。
資格試験†
Last-modified: 2023-06-08 (木) 13:10:52