Auto-Encoder については結局改善せず(わからず)。まだまだ基礎力が足りません。
imbalanced data については過去に研究がなされてきたようで、web上でも多くの情報が引っ掛かりました。例えば↓
https://www.analyticsvidhya.com/blog/2017/03/imbalanced-classification-problem/
H2O FLOW でも、以下のオプションがありました(見落としていました)。
balance_classes : on
class_sampling_factors : 1,3
shuffle_training_data : on
Activation function : Maxout with Dropout
input_dropout_ratio : 0.2
これを使うと、元データを操作しなくてよくなります。
が、 これを使っても training に比べ validation の結果が見劣ります。やはり、過学習でしょう。 class_sampling_factors を 1,2 や 0.3,1 などと試してみましたが、どれも同じ傾向です。活性化関数に Dropout をつけてもダメ。改善しません。
弱りました。imbalanced data への対策を行いつつ、deep learning から離れた方が良いのでしょうか?
0 件のコメント:
コメントを投稿