後輩君から非発生のサンプリングについて相談がありました。
個人的には崩壊斜面と非崩壊斜面の差を求めるのが最も厳しい条件なので、低地を除くことを勧めました(相対的に結果は悪化しますが)。前に話したバッファの話題が出なかったので忘れてしまったのかもしれませんが、非発生のサンプリングについて考えて迷ったのは良いことだ思います。
あらためて非発生のサンプリングにかかわる文献を見てみますと、ひどいサンプリングが多い。低地のみから非発生データを取得して見かけの判別精度を上げています。この方法は簡単に精度を上げることができるのですが、使い物になりません。「9割超えの結果はまず疑え」と、どこかで読んだことがありますが、素人さんからみると良い結果に見えるのでしょう。
文献の著者から見ると、ひどいと思う日本人の感覚の方がおかしいのかもしれません。たまたまその斜面が崩壊しなかっただけで、危険性が高いのは変わらない。そこから非崩壊サンプルを取得するのは合理性に欠ける。そもそも、地形量から推定できる崩壊・非崩壊の予測精度はそれほど大きくないですから、著者のように斜面は危ないと割り切ってしまう潔さも必要なのかもしれません。
力学の視点で LSM を作ると精度がよさそうに思えますが、これも含水率や土砂の厚さなど様々な条件を正しく設定できない限り当たらないはずです。この設定は相当困難。そう思うと、地形量のみから作成できる LSM のレベルがそれほど高くないことは容易に想像できるでしょう。達成できる精度を念頭に置きつつ、こだわる場所を選択すべきなのでしょうね。
現状でのサンプリング方法は以下でしょうか。
・ランダムサンプリング < バッファ < 斜面単位
・重心、コア < 頭部 < 滑落崖
非発生のサンプリング方法は重要です。引き続き考えて参りましょう。
以下、文献のメモ(感想付き)です。
感想〇
斜面単位でのサンプリングは、バッファ500m等よりも優位
予測結果をK-meansクラスタリングによりゾーニング。これが最も優れている。
感想X(保守的すぎる予測、機械学習不要)
過小評価されがちな重要な要素は、非発生地域のサンプリング(Rabby et al., 2023)。
LSMの信頼性と精度は、データ選択の卓越性とその形成に採用された方法論と本質的に関連している。
一般的に使用される非発生のサンプリング方法は次の通り。
1)非発生エリアからサンプリング
2)地形特性と専門家の判断によって決定される傾斜閾値よりも低いエリアの使用。
(Adnan et al., 2020)は2度、(Ali et al., 2021)は3度の閾値を使用。
3)地すべりから一定の距離を超えるエリアから選択。
(Taalab et al., 2018)は、200mバッファを使用。
当研究では以下の2種を比較、シナリオ1の方が高いF1ROC-AUCを示した。
1.傾斜角(シナリオ 1): 指定された傾斜角の閾値を下回るエリアに基づくサンプリング方法。
この研究では、10°の傾き閾値を採用。調査範囲内の地すべりのうち <10° の傾斜で発生したのは 2% に過ぎず、このクラスの頻度比はわずか 0.06 である。
この低頻度比は、地すべり発生との相関が極めて弱いことを示している。
2.バッファー(シナリオ 2): 本研究では、250mバッファを利用。
感想△(危険度抵からのみ取得するのは保守的)
LSA手順には、主に地すべり(ポジティブ)および非発生(ネガティブ)データセットのサンプリング、影響要因の決定、モデリングとマッピング、および結果の精度分析が含まれる(Barik et al., 2017)。
主な非発生のサンプリング手法は4つ
1)ランダムにサンプリング(例:Okalp and Akgün、2016;Bueechi et al., 2019;Azarafza et al., 2021)・・・最も一般的
2)バッファ(Xi et al., 2022)
3)自己組織化ニューラルネットワーク(Huang et al., 2017)、類似性に基づくアプローチ(Zhu et al., 2019)
4)傾斜角の小さい地形領域または平野地域からのサンプリング (Kavzoglu et al., 2014;Lucchese et al., 2021;Okalp and Akgün, 2022)
欠点
1) と 2) によって生成されたサンプルは、地すべりの発生しやすい急な斜面に配置されている可能性あり。
4)は地すべりの発生しやすい河川近くに配置される可能性あり。
当研究では以下を比較
SVM からの Very Low (VL) ゾーン
C5.0-DT からの VL ゾーン
LRからのVLゾーン
地すべりゼロエリア
バッファ距離 <200 m
バッファ距離 200–400 m
バッファ距離 >400 m
地すべりのコアのみを正のサンプルとして使用し、地すべりの危険性モデリング中に地すべりの境界をカバーするピクセルを破棄する方法が良い
バッファー距離の増加に伴って AUC の精度が向上
C5.0モデルのVLゾーンの精度が高い。
感想△(危険度抵・高から1:1で取得するのは、エリアにより保守的になる)
非発生サンプルを選択するための統一基準はない[22,23]。
①地すべりのない地域でのランダムサンプリング、地形的特徴に基づく低傾斜サンプリング、②地すべり境界のバッファー外のサンプリング等がある。
これらの方法は主観的な判断や特定の地理的要因に依存することが多く、潜在的な地すべり地域をネガティブサンプルとして誤って選択するリスクを完全に回避することはできない。
入力データが地すべり発生地域と非発生地域の両方の地理的特性を十分に表していることを確認することが必要。
現在の研究では、一般的に発生・非発生を1:1の比率で使用。ただし、このバランスの取れたサンプリング戦略は、実際のフィールド条件を完全には反映しいない[14]。
一部の研究者は、不均衡データを処理するためオーバーサンプリングやアンダーサンプリングなどの戦略を提案。それでも情報の損失やオーバーフィットのリスクに直面している。
当業務では③SHAP値を用いたサンプリングを実施。初期モデルとしてRFを構築。
シナリオ2:予測結果より、エリアを2分(危険度艇・高)、面積比1:4.23でサンプリング
シナリオ3:最も寄与の大きなNDVIのSHAP値分布により、エリアを2分(危険度艇・高)、そこから同数ずつ非発生を選択
過剰適合の可能性あり[14,35]。
感想〇
インベントリに15度未満の発生事例ナシ。
余裕をもって10度以上を対象とした。