2020年2月5日水曜日

重回帰分析

機械学習側から純然たる統計学に近づいてきました。

プログラミングの側面から見ると、データを作って手法に投げ込む形は同じ。しかもより簡素。これなら理解しようという気になります。
で、regression。いろいろありますね。sklearn のチートでは、特徴量選択を含めると Lasso, Elastic net が選択される流れです。

・重回帰:単回帰の高次元版
・ロバスト回帰:外れ値の影響低減
・Lasso回帰:L1正則化項の追加(係数ノルムの合計×α)・・・次元圧縮
・Ridge回帰:L2正則化項の追加(係数2乗の合計×α/2)
・Elastic Net:L1,L2正則化項の追加

始めたのが重回帰分析。これは単回帰の特徴量を増やしただけなので、答えを出すだけなら新たに理解すべきことはありません。が、特徴量選択や適合性評価については、培われてきた独自の流儀があるようです。

以下、備忘録。
*****************************************
【重回帰モデルのあてはまりの良さの評価】
Adjuted r2:自由度調整済決定係数
AIC:赤池情報量基準
 r:重相関係数
 r2:決定係数 Sr/St=予測値の平方和/実測値の平方和=1-Se/St
 S:平方和 データと平均との差の2乗和=分散をn

【重回帰モデルが予測に役立つかの評価】
F-Value:F値 Vr/Ve=(Sr/p)/(Se/(n-p-1))
 p:特徴量の数
 n:サンプル数

【特徴量選択】
F値、t値、p値
wrapper method、反復特徴量選択:stepwise

【留意点】
サンプル数が少なくても、最小二乗法(誤差合計の式を偏微分)で係数分の式を作るので、係数自体は求まる。しかし、サンプル数Nに比べ求める係数の数Pが多い場合(自由度N-Pが低いとき)、決定係数r2は大きくなりやすい(N=2の単回帰は誤差0、R2=1.0)。
F値、Adjuted r2 等でのモデル評価が重要。


0 件のコメント:

コメントを投稿