では、test データはどうするのか?今まで考えてきませんでした。
現実問題への適用を考えると、未調整の test データを使って評価するのが当然なのでしょう。
と思いつつ調べてみましたが、なかなか書き物が見当たりませんでした。当たり前すぎるのでしょうか?
調べていると、以下のサイトを見かけました。同じことを疑問に思われる方がいらっしゃったようです。
https://datascience.stackexchange.com/questions/17873/imbalanced-dataset-how-to-deal-with-test-data
どうやら、未調整の test データを使用するのが無難なですね。Average accuracy を勧められていますので、Macro 平均で良いでしょう。
試してみましょう。
****************************************
20190325追記
足せば足すほど、評価指標は落ちました。
マイナークラスを検出しやすいように調整したモデルでは、メジャークラスの誤判定が増えました。