プログラミングの側面から見ると、データを作って手法に投げ込む形は同じ。しかもより簡素。これなら理解しようという気になります。
で、regression。いろいろありますね。sklearn のチートでは、特徴量選択を含めると Lasso, Elastic net が選択される流れです。
・ロバスト回帰:外れ値の影響低減
・Lasso回帰:L1正則化項の追加(係数ノルムの合計×α)・・・次元圧縮
・Ridge回帰:L2正則化項の追加(係数2乗の合計×α/2)
・Elastic Net:L1,L2正則化項の追加
始めたのが重回帰分析。これは単回帰の特徴量を増やしただけなので、答えを出すだけなら新たに理解すべきことはありません。が、特徴量選択や適合性評価については、培われてきた独自の流儀があるようです。
以下、備忘録。
*****************************************
【重回帰モデルのあてはまりの良さの評価】
Adjuted r2:自由度調整済決定係数
AIC:赤池情報量基準
r:重相関係数
r2:決定係数 Sr/St=予測値の平方和/実測値の平方和=1-Se/St
S:平方和 データと平均との差の2乗和=分散をn
【重回帰モデルが予測に役立つかの評価】
F-Value:F値 Vr/Ve=(Sr/p)/(Se/(n-p-1))
p:特徴量の数
n:サンプル数
【特徴量選択】
F値、t値、p値
wrapper method、反復特徴量選択:stepwise
【留意点】
サンプル数が少なくても、最小二乗法(誤差合計の式を偏微分)で係数分の式を作るので、係数自体は求まる。しかし、サンプル数Nに比べ求める係数の数Pが多い場合(自由度N-Pが低いとき)、決定係数r2は大きくなりやすい(N=2の単回帰は誤差0、R2=1.0)。
F値、Adjuted r2 等でのモデル評価が重要。
wrapper method、反復特徴量選択:stepwise
【留意点】
サンプル数が少なくても、最小二乗法(誤差合計の式を偏微分)で係数分の式を作るので、係数自体は求まる。しかし、サンプル数Nに比べ求める係数の数Pが多い場合(自由度N-Pが低いとき)、決定係数r2は大きくなりやすい(N=2の単回帰は誤差0、R2=1.0)。
F値、Adjuted r2 等でのモデル評価が重要。
0 件のコメント:
コメントを投稿