2019年3月11日月曜日

Imbalanced 'test' data

Imbalanced dataset の学習時には、前処理として under/over sampling を使用します。

では、test データはどうするのか?今まで考えてきませんでした。
現実問題への適用を考えると、未調整の test データを使って評価するのが当然なのでしょう。が、メジャークラスを足すほど評価指標は良好な値を示すでしょう。ま、値が上りにくい macro 平均等を使うべきなのでしょうね。

と思いつつ調べてみましたが、なかなか書き物が見当たりませんでした。当たり前すぎるのでしょうか?
調べていると、以下のサイトを見かけました。同じことを疑問に思われる方がいらっしゃったようです。
https://datascience.stackexchange.com/questions/17873/imbalanced-dataset-how-to-deal-with-test-data

どうやら、未調整の test データを使用するのが無難なですね。Average accuracy を勧められていますので、Macro 平均で良いでしょう。
試してみましょう。

****************************************
20190325追記
足せば足すほど、評価指標は落ちました。
マイナークラスを検出しやすいように調整したモデルでは、メジャークラスの誤判定が増えました。


0 件のコメント:

コメントを投稿