2024年11月18日月曜日

LSM の信頼性

Landslide Susceptibility Assessment in the Japanese Archipelago Based on a Landslide Distribution Map

日本の研究者が日本の Landslide Susceptibility Map を AHP を用いて作成されています。
崩壊データとしては、「地すべり地形分布図」を利用されています。主として30~40年の期間しか扱えない災害データよりも、数百~数千年程度のイベントを反映した地すべり地形分布図の方が、susceptibility を見出す点で適している部分があるでしょう。
また、国外の研究者が作成するよりも地質を細かく取り扱われています。このあたりは国内の研究者の方が有利でしょう。このような文献を見ると、安心します。

この文献もそうですが、LSM を作成している文献では、基本的にはオープンデータが利用されています。検討ツールは異なるものの、どれも同じようなアプローチです。既に LSM の作成方法や考え方はある程度確立されていると言えるでしょう。
問題は、どの作り方、どの特徴量の選び方が良かったのか比較する場がないことです。文献では、当然「自分たちの提案手法は良い性能を出したよ」「今後も改良していくよ」で終わっており、他の文献と同じデータを使って手法を比較する、優位性を示すまでには至っていません。画像分類における ImageNet のように標準的なデータセットがなく、ILSVRC のように比較する場もありません。このようなデータセットや場の提供を学会等が担うべきだと思います。

機械学習を使えば信頼性の高いマップができるわけではありません。研究者が切磋琢磨できるような場ができて初めて、マップや機械学習の信頼性が向上し始めるのです。まだまだこれからです。

2024年11月13日水曜日

タンクモデルのパラメータ最適化 その2

タンクモデルに関する問い合わせがありました。

最近は機械学習を利用する印象が強く、タンクのことを忘れかけていました。
振り返ってみると、EXCEL、Fortran、Python でパラメータ探索を実施しています。なんだか苦労して重み(ペナルティ)を手で合わせた記憶がありますね。

機械学習のノウハウがある程度身についた今だと、タンクモデルでも同じフレームワークを使用できるなあと思いつきました。

畳み込みブロックを何段にするか --> タンクを何段にするか
ハイパーパラメータの最適化 --> パラメータの最適化
損失関数の選択 = 損失関数の選択

機械学習で利用している Optuna を使えば、容易に最適化できそうです。同定するパラメータや計算量が機械学習に比べて非常に少ないため、探索に時間もかからないでしょう。同じようなことを考える人がいるのでは?と調べてみると、やはりいらっしゃいました。
単流域型タンク・モデルとニューラルネットワークの比較

DNN や GBM だと、過学習を起こしやすい印象を持っています。また。外挿も苦手。タンクモデルくらいの少ないパラメータで長期のデータを扱う、交差検証を取り入れるなどの工夫が過学習を起こさないちょうど良いレベルなのかもしれません。ペナルティの配分の仕方も何かしら自動化できそうです。
「丁度良い」最適化ができそうな気がします。

2024年11月12日火曜日

inter-aquifer connectivity

Using geochemical and geophysical data to characterise inter-aquifer connectivity and impacts on shallow aquifers and groundwater dependent ecosystems. - ScienceDirect

データ量が多く全容を理解できませんでしたが、調査法として参考になる文献でした。これだけ調査するのは大変だったでしょう。

  • ピットを掘るので地下水を低下させる。
  • 8㎞西に文化的にも重要な湧水群がある。
  • その周囲には貴重な植生もある。
  • ピット周辺の帯水層と湧水群の帯水層は別。
  • 間に厚い不透水層がある。
このような調査結果をシミュレーションに与えると「大きな影響なし」という答えが出てきます。私が担当していたとしても、恐らくそのように結論付けたと思います。
が、実際は西方の井戸に地下水位の低下傾向が認められた。
そこで追加調査を実施。

  • 不透水層は部分透水だった。(透水係数、若い地下水(年代測定))
  • 上部の風化帯を通じて帯水層がつながっている可能性あり(メジャーイオン、放射性同位体組成の重なり、透水係数、若い地下水(年代測定))

空中電探、水質分析、地下水年代測定等を実施することで、地下水流動経路と影響の原因を特定した、という内容でした。

国内では、建設範囲外でこれだけ広域の調査を実施することはレアでしょう。温泉や重要水源への影響検討の場合は実施する場合があるものの、空中電探まではしていないでしょう。が、やるべきなのでしょうね。いろいろな可能性を考えて調査を提案することが、後のリスク低減に繋がります。それが重要である点をこの文献は示唆しています。
実務のお手本になるような文献でした。

2024年11月11日月曜日

VisionTransformer

先日書き残しましたが、LSM 作成に transformer が利用されていました。
https://phreeqc.blogspot.com/2024/11/landslide-susceptibility-map-using-ml-5.html

transformer を利用したいと思っていたのですが、実務では画像分類での ViT を先に触りました。結果は他のアーキテクチャを抑え Best Score。また一つ、外せない選択肢が増えました。

先月、ViT の図書が発売されました。おそらく、国内では2冊目でしょう。先の本もわかりやすいのですが、こちらも good。変化するテンソルの大きさが良くわかります。CNN同様に、これから解説本が増えていくかもしれません。

「Vision Transformer/最新CNNアーキテクチャ 画像分類入門 」

図書には transformer 以降に提案されたネットワークアーキテクチャがいくつか整理されています。2020年末から2~3年で多くのネットワークが提案されているのは、CNNの頃と変わらないでしょうか。
CNN とのハイブリッド手法については、まだ触れる機会がありません。遅れないようについていきましょう。

2024年11月10日日曜日

国内のLSM、ハザードマップ、リスクマップ

日本では、「Landslide Susceptibility Map」に対応する統一的な用語はまだ確立されていません(産総研さんは「感受性マップ」でした)。
土砂災害に関するマップは古くから作成されていますが、様々な表現が用いられています。「ハザードマップ」と「リスクマップ」についても、明確に区別されずに使用されています。


崩壊の危険度に関するマップとして、まずは深層崩壊。国交省から公開されていますが、ここでは隆起量や地質を考慮されているようです。豪雨時のハザードマップの材料として利用可能でしょう。

●深層崩壊推定頻度マップ
過去の発生事例から得られている情報をもとに深層崩壊の推定頻度に関する全国マップを作成しました。(2010/08)
●渓流レベル評価マップ
空中写真判読等による深層崩壊の渓流(小流域)レベルの調査。(2012/09)
https://www.mlit.go.jp/mizukokudo/sabo/deep_landslide.html


地震時の斜面崩壊に対するハザードマップもあります。
この六甲式は評価手法になるのですが、得られるのはマップです。シンプルな式ですが、経験的に良い性能を発揮します。
●六甲式
国総研資料 第 204 号
参考:地震による斜面崩壊危険度評価判別式「六甲式」の改良と実時間運用

さらに一歩進んだリスクマップも公開されています。国内では崩壊データが整備されていませんので、土砂災害データが利用されていたり、民家の有無も考慮されたうえでの評価がなされています。
●土砂災害発生確率マップ(案)
国総研資料 第 1120 号
●ハザードマップポータル
ハザードマップポータルサイト
●キキクル
気象庁 | キキクル(危険度分布)



現状、機械学習を導入するだけで良いマップを作ることができるとは考えていません。おそらく、よく検討された六甲式や土砂災害確率マップの方が実態に近い結果を得られると思います。
将来、過去の崩壊データが整備される、あるいはリアルタイムで整備されるしくみが整い、人の手に負えなくなる量が毎年加えられる、というようなことになるかもしれません。そのような場合に、重回帰に代わってDNNを使う、適中率と捕捉率の同時向上=F1マクロを評価指標としてトレーニングする、などという取り換えが可能となり、良質なマップができるようになるのでしょう。

国内では、機械学習による LSM 作成を試しながらも、データ収集・提供の仕組みを整える必要があるのでしょう。

2024年11月9日土曜日

Landslide Susceptibility Map using ML その6

天然ダムによる河道閉塞が発生するか?まで考えられた文献です。

イタリアと日本全土が検討済みです(著者は中国の方のようです)。LSMを作成した後、川に重ねて河道閉塞リスクを検討されています。道路への影響検討を扱った文献はいくつか見てきましたが、天然ダム形成については初めてです。(3)式がどこまで実態に即しているのかはわかりませんが、一歩進んだ取り組みでしょう。

Fig. 6

From: A global-scale applicable framework of landslide dam formation susceptibility

Fig. 6

Landslide susceptibility evaluation result in Italy (a) and Japan (b)

Fig. 8

From: A global-scale applicable framework of landslide dam formation susceptibility

Fig. 8

Landslide dam formation index result in Italy (a) and Japan (b) (each dot with LDam formation index represented the centre of a river reach presented as 90-m resolution grid in MERIT Hydro; Figs. S18 in supplementary presents two instances of visualising the LDam formation index on a smaller scale)

内容や精度はともかく、「ひとまず全国やってみた」「使ったデータは公開したよ」という取り組み姿勢は素晴らしいと思います。日本の税金で整備したデータを他国の研究者が使用して成果を公開するという点に引っかかりがありますが、それも日本の研究者の刺激になれば良いでしょう。

2024年11月4日月曜日

Landslide Susceptibility Map using ML その5

Improving landslide susceptibility prediction through ensemble Recursive Feature Elimination and meta-learning framework | Research Square

2024年の文献です。
特徴量選択にアンサンブル(多数決)を利用しています。個々のモデルでは、RFECVを利用。さらに、ベースモデル ‐LRによるスタッキングを通して最終的な出力を得ています。

Full article: Near real-time spatial prediction of earthquake-induced landslides: A novel interpretable self-supervised learning method

こちらは transformer を利用されています。
pre-training 後に fine-tuning を実施したところ、他の手法より AUC がよかったよ、という報告です。

transformer ではグローバルな発生データを活用する pre-training が可能であり、データ量の多さを活かして高度な特徴学習ができそうです。それをローカルの発生・非発生データで fine-tuning することで、未知のデータに対する汎化性能を保ちつつ、ローカルな特性を捉えたモデルを構築できます。ローカルのために世界のデータを利用するという報告は"その2"で書き残しました。が、この場合は XGBoost ですので pre-training の概念がないですし、学習時に利用するにしても相応の非発生データが必要になります。

利用する特徴量を決めておいて、世界でデータを整備しておけば、事前学習済みデータとして配布・利用できそうです。幸か不幸か国内はこれからですので、特徴量に使える国内データの整備が進むとありがたいですね。