Geochemist？: 重回帰分析

2020年2月5日水曜日

重回帰分析

機械学習側から純然たる統計学に近づいてきました。

プログラミングの側面から見ると、データを作って手法に投げ込む形は同じ。しかもより簡素。これなら理解しようという気になります。
で、regression。いろいろありますね。sklearn のチートでは、特徴量選択を含めると Lasso, Elastic net が選択される流れです。

・重回帰：単回帰の高次元版
・ロバスト回帰：外れ値の影響低減
・Lasso回帰：L1正則化項の追加（係数ノルムの合計×α）・・・次元圧縮
・Ridge回帰：L2正則化項の追加（係数2乗の合計×α/2）
・Elastic Net：L1,L2正則化項の追加

始めたのが重回帰分析。これは単回帰の特徴量を増やしただけなので、答えを出すだけなら新たに理解すべきことはありません。が、特徴量選択や適合性評価については、培われてきた独自の流儀があるようです。

以下、備忘録。
*****************************************
【重回帰モデルのあてはまりの良さの評価】
Adjuted r2：自由度調整済決定係数

AIC：赤池情報量基準

　r：重相関係数

　r2：決定係数　Sr/St=予測値の平方和/実測値の平方和=1-Se/St

　S：平方和　データと平均との差の2乗和=分散をn

【重回帰モデルが予測に役立つかの評価】
F-Value：F値　Vr/Ve=(Sr/p)/(Se/(n-p-1))
　p：特徴量の数
　n：サンプル数

【特徴量選択】

F値、t値、p値
wrapper method、反復特徴量選択：stepwise

【留意点】
サンプル数が少なくても、最小二乗法（誤差合計の式を偏微分）で係数分の式を作るので、係数自体は求まる。しかし、サンプル数Nに比べ求める係数の数Pが多い場合（自由度N-Pが低いとき）、決定係数r2は大きくなりやすい（N=2の単回帰は誤差0、R2=1.0）。
F値、Adjuted r2 等でのモデル評価が重要。

Geochemist？

2020年2月5日水曜日

重回帰分析

0 件のコメント:

コメントを投稿