2020年5月21日木曜日

地域特化と過学習

扱う災害発生降雨が1降雨のみであれば、非発生降雨と完全に分離できます。
数十件程度までなら区分できるでしょう。単なる過学習ですが。

昨日書きとめた文献のように、自治体単位だと過去の発生事例が限られるため、一見、識別性能の良く見えるモデルができるでしょう。が、当たるのか?と言われると、おそらくダメ。同条件で同じ降雨が来ない限り、このモデルでの予測が当たる保証はありません。機械学習分野では避けなければならない考え方です。

では、全国レベルで学習して地域が当たるのか?と言われると、個人的にはある程度当たると考えています。経産省のようにデータを公開してコンペに出せば、すぐにデータサイエンティストたちが一定のレベルまで引き上げてくれるでしょう。解決策の一つです。

地域のデータを深堀りすることは必要です。が、将来に役立てるためには、より大きな視点に基づいた評価が必要です。地域特化が多量のデータを扱える技術がないことの隠れ蓑になってはいけません。過学習に陥ってはいけないのです。

全国かつ非発生にも目を向け、恣意的にならないよう、繰り返し検討を進める必要があります。

0 件のコメント:

コメントを投稿