統計学ではデータセットを training(+ varidation), test に区分することはなかったでしょう(況や、CV をや)。
このあたり、機械学習では標準。結果を出すために必要な手順です。
重回帰でもできるのですが、どの統計の図書を見ても理論ばかりで、この流れには触れられていませんでした。予測に対して理論よりも結果(性能)重視の立場が機械学習、理論武装(仕様)重視が統計というような感じを受けます。
単にプログラミングしやすくなったというのも後発に影響しているでしょう。ハードルが低くなり、統計でも CV 等が当たり前になってくるのでしょうか。今、統計のプロはどうされているのでしょう。
機械学習における特徴量選択手法の呼び方 wrapper method は明らかにプログラミングの立場からですね。もちろん、手順に則した呼び方もあります。 Sequential Feature Selection (Sequential Forward Selection , Sequential Backward Elimination, Sequential Forward Floating Selection (SFFS), Sequential Backward Floating Selection (SBFS)), Exhaustive Feature Selection 等。
手元の統計学の図書では SFFS を stepwise と記載されています。手順に関わる呼び方はある程度共通なのかもしれません。が、統計で wrapper method と呼ぶ発想はないでしょう。ある程度の住み分けができているのでしょうね。
どちらの立場からでも良いと思います。両方知っているのが理想でしょう。
PCA、ラフ集合、回帰など、統計の世界にも入り始めましたので、今後も機会があれば学んでいきましょう。
0 件のコメント:
コメントを投稿