2020年4月20日月曜日

特徴量生成

先日、H2O.ai の Webinar に参加しました。

Driverless AI を使った異常のある製品を予測するデモでした。かなりの imbalance データにもかかわらず、そこそこの成績を収めていました。

特に印象に残ったのが特徴量生成。自動で特徴量を作成し、フルイにかけてから学習を行う。しかもモデルのデプロイまで可能。新しいデータが来てもそのまま入れられるなんて素晴らしい。こういうのを見ると使いたくなりますね。

デプロイはともかく、特徴量生成は Kaggle でも一般化しているようです。以下の解説でも触れられています。
https://www.youtube.com/watch?v=RKXUEJVJJ-o

Python でお手軽に実装しようとすると、Featuretools でしょうか。
https://www.featuretools.com/

この休みの間に、手元にあった200近い特徴量を有するデータに対し、Featuretools で四則演算をかけてみました。が、メモリーオーバー。
ゴミを除いて45にしてから四則演算をかけると5000弱。40万行程度でしたが、i5-8600 で7分程度でした。学習時間を考えると、再度絞らないといけないかな?

特徴量生成は結果として解釈性を下げることにつながりやすいので、説明責任のある方々にとって受け入れ難いという点は理解しています。が、劇的に精度が上がればブラックボックスモデルでも受け入れられるでしょう。

高価なツールを併用する、プロのアドバイスを受けるなど、先端技術の利用は精度向上に必須です。少なくとも、現在の状況を知っておく必要があるでしょうね。
遅れないようにしないと。


0 件のコメント:

コメントを投稿