2017年11月12日日曜日

Imbalanced Data その2

Auto-Encoder については結局改善せず(わからず)。まだまだ基礎力が足りません。

imbalanced data については過去に研究がなされてきたようで、web上でも多くの情報が引っ掛かりました。例えば↓
https://www.analyticsvidhya.com/blog/2017/03/imbalanced-classification-problem/

H2O FLOW でも、以下のオプションがありました(見落としていました)。

balance_classes : on
class_sampling_factors : 1,3
shuffle_training_data : on

Activation function : Maxout with Dropout
input_dropout_ratio : 0.2

これを使うと、元データを操作しなくてよくなります。

が、 これを使っても training に比べ validation の結果が見劣ります。やはり、過学習でしょう。 class_sampling_factors を 1,2 や 0.3,1 などと試してみましたが、どれも同じ傾向です。活性化関数に Dropout をつけてもダメ。改善しません。

弱りました。imbalanced data への対策を行いつつ、deep learning から離れた方が良いのでしょうか?





0 件のコメント:

コメントを投稿