2024年11月26日火曜日

３次元地質モデルと機械学習その3

Progressive Geological Modeling and Uncertainty Analysis Using Machine Learning

2段階で機械学習による層序区分、岩石区分を推定し、分布確率を同時エントロピーとして表現されています。1段階目では XYZ 座標を入力として層所区分を予測、2段階目はそれらと物性値2種を入力として岩石区分を予測。手法的には半教師あり学習になりそうです。

1段階目をミスると2段階目も誤りになります。が、地質と岩級の両方を扱いたい、などという場合に使えそうな提案です。

機械学習による確率分布の算出には、これまでの文献のようにボクセル毎で正規化するのではなく、ロジット値を算出しておいて後からモデル全体で正規化すべきだと考えています。が、2段階の場合はこの文献の求め方のほうが好みです。

確率分布の表現も複数あるので、目的に応じて使い分けるのが良いのでしょう。

2024年11月25日月曜日

３次元地質モデルと機械学習その2

A stacking methodology of machine learning for 3D geological modeling with geological-geophysical datasets, Laochang Sn camp, Gejiu (China) - ScienceDirect

一歩進んで、地質、磁気探査、重力探査結果を組み合わせた3D地質モデルです。

The input data are coordinate (x, y, z), magnetic susceptibility and residual density

Joint inversion とは異なり、これも物理的関係は考慮されていません。機械学習としてブラックモデルが分布確率を提示します。データ駆動型の手軽さと解釈の難しさを併せ持っています。
手法としてはアンサンブル（スタッキング）で判別性能を高める工夫がなされています。

日本でブラックボックスモデルは受け入れられるでしょうか？
近年の文献では、データ駆動型の方が物理ベースのモデルに比べて性能の良くなる傾向が認められると言われています。が、地質モデル作成の場合はトレーニングに利用できるボーリング数が補間するボクセル数に比べ、圧倒的に少なくなります。その場合は物理ベースモデルを利用し、その結果を地質屋さんが解釈し分布を推定する方が性能が良くなるでしょう。
その「解釈」部分のロジックを、先の文献のように損失関数に組み込んだペナルティとして数式で表現すれば、機械学習でも良い地質モデルを作れるようになると思われます。プログラミングのように、自分が何を考えて推定したのかを整理、伝達することから始める必要があるということです。

2024年11月24日日曜日

３次元地質モデルと機械学習

地質の３次元可視化にも機械学習が使われつつあります。

良い点は、推定地質の分布確率を表示しやすいこと。いえ、統計処理した確率ではありません。モデルが考える確率ということで、その根拠は曖昧です。
これまでは indicator kriging のように地球統計学を利用していました。が、それより手軽に算出できること、機械学習ユーザーの方が圧倒的に多いことから、今後事例が増えると思われます。

まずは、コチラ。2024年です。半教師あり学習を利用しています。

従来と同じくソースは XYZ と地質情報のみですが、線形補間しているようなリサンプリング手法を用いて大きなエラーが生まれないように工夫されているようです。
GMD - GeoPDNN 1.0: a semi-supervised deep learning neural network using pseudo-labels for three-dimensional shallow strata modelling and uncertainty analysis in urban areas from borehole data

次は損失関数を工夫した例。これも2024年。
地層の逆転がない場合、古い地層は必ず新しい地層よりも下位に分布するという単純な法則に対し、違反した場合にペナルティとなるよう損失関数に組み込んでいます。これだけの工夫ですが、うまく予測してくれる場合があるようです。PINNs から着想を得られたのかもしれません。
Research on 3D Geological Modeling Method Based on Deep Neural Networks for Drilling Data

いずれもまだ「やってみた」レベルですが、そのうちより良い推定ができるようなモデルの構築方法へ議論が進むことでしょう。一方で、統計処理や機械学習ができるほどボーリングを掘るサイトは少ないので、身近な土木分野では大きくは変化しないかもしれません。大きなサイトでどうなるか、今後に着目しましょう。

2024年11月22日金曜日

AI-driven rapid landslides mapping

NHESSD - Brief Communication: AI-driven rapid landslides mapping following the 2024 Hualien City Earthquake in Taiwan

地震時崩壊個所を、2手法で迅速に特定したという報告です。
ソースと機械学習手法の組み合わせは以下の通り。

Sentinel-1 (SAR) - CNN
PlanetScope（可視画像）‐ ViT

The ViT model was pre-trained and validated on a multi-source landslide segmentation dataset (Fang et al., 2024), the Globally Distributed Coseismic Landslide Dataset (GDCLD).

データ入手に日数を要していますが、作業自体は 20分～2時間程度だそうです。
ViTの事前学習に利用したデータは公開されており、またCNNコードも公開されています。残念ながら私の環境では素直に走らなかったので、どの程度の成果が得られるのかは確認できませんでした。

能登の地震災害では、２日後に地理院で航空写真が公開され、3日後に崩壊個所の判読結果が公開されています。提案手法の場合、精度を保てないと現行手法と勝負にならないのですが、SARでは天候に大きく影響されない点や、広域でも一人で対応できる点が魅力です。そのうち性能は向上するでしょうから、災害直後の道路ネットワークの寸断箇所（孤立集落）の確認や天然ダム形成の確認に使える日が来るかもしれません。

航測会社も頑張って開発されていると思われますので、この分野で良い勝負がなされるよう期待したいところです。

2024年11月18日月曜日

LSM の信頼性

Landslide Susceptibility Assessment in the Japanese Archipelago Based on a Landslide Distribution Map

日本の研究者が日本の Landslide Susceptibility Map を AHP を用いて作成されています。
崩壊データとしては、「地すべり地形分布図」を利用されています。主として30～40年の期間しか扱えない災害データよりも、数百～数千年程度のイベントを反映した地すべり地形分布図の方が、susceptibility を見出す点で適している部分があるでしょう。
また、国外の研究者が作成するよりも地質を細かく取り扱われています。このあたりは国内の研究者の方が有利でしょう。このような文献を見ると、安心します。

この文献もそうですが、LSM を作成している文献では、基本的にはオープンデータが利用されています。検討ツールは異なるものの、どれも同じようなアプローチです。既に LSM の作成方法や考え方はある程度確立されていると言えるでしょう。
問題は、どの作り方、どの特徴量の選び方が良かったのか比較する場がないことです。文献では、当然「自分たちの提案手法は良い性能を出したよ」「今後も改良していくよ」で終わっており、他の文献と同じデータを使って手法を比較する、優位性を示すまでには至っていません。画像分類における ImageNet のように標準的なデータセットがなく、ILSVRC のように比較する場もありません。このようなデータセットや場の提供を学会等が担うべきだと思います。

機械学習を使えば信頼性の高いマップができるわけではありません。研究者が切磋琢磨できるような場ができて初めて、マップや機械学習の信頼性が向上し始めるのです。まだまだこれからです。

**************************************
20250118追記
「地すべり地形分布図」を正解として使用すると、すべり前の地形データはないのですべり後の地形（DEM）に対し特徴量を抽出することになります。すべり前の地形に対し危険度を予測するというよりは、地すべりの可能性が高い地形を危険度として示す、という解釈になるのでしょう。

2024年11月13日水曜日

タンクモデルのパラメータ最適化その２

タンクモデルに関する問い合わせがありました。

最近は機械学習を利用する印象が強く、タンクのことを忘れかけていました。
振り返ってみると、EXCEL、Fortran、Python でパラメータ探索を実施しています。なんだか苦労して重み（ペナルティ）を手で合わせた記憶がありますね。

機械学習のノウハウがある程度身についた今だと、タンクモデルでも同じフレームワークを使用できるなあと思いつきました。

畳み込みブロックを何段にするか --> タンクを何段にするか

ハイパーパラメータの最適化 --> パラメータの最適化

損失関数の選択＝損失関数の選択

機械学習で利用している Optuna を使えば、容易に最適化できそうです。同定するパラメータや計算量が機械学習に比べて非常に少ないため、探索に時間もかからないでしょう。同じようなことを考える人がいるのでは？と調べてみると、やはりいらっしゃいました。
単流域型タンク・モデルとニューラルネットワークの比較

DNN や GBM だと、過学習を起こしやすい印象を持っています。また。外挿も苦手。タンクモデルくらいの少ないパラメータで長期のデータを扱う、交差検証を取り入れるなどの工夫が過学習を起こさないちょうど良いレベルなのかもしれません。ペナルティの配分の仕方も何かしら自動化できそうです。

「丁度良い」最適化ができそうな気がします。

2024年11月12日火曜日

inter-aquifer connectivity

Using geochemical and geophysical data to characterise inter-aquifer connectivity and impacts on shallow aquifers and groundwater dependent ecosystems. - ScienceDirect

データ量が多く全容を理解できませんでしたが、調査法として参考になる文献でした。これだけ調査するのは大変だったでしょう。

ピットを掘るので地下水を低下させる。
８㎞西に文化的にも重要な湧水群がある。
その周囲には貴重な植生もある。
ピット周辺の帯水層と湧水群の帯水層は別。
間に厚い不透水層がある。

このような調査結果をシミュレーションに与えると「大きな影響なし」という答えが出てきます。私が担当していたとしても、恐らくそのように結論付けたと思います。
が、実際は西方の井戸に地下水位の低下傾向が認められた。
そこで追加調査を実施。

不透水層は部分透水だった。（透水係数、若い地下水（年代測定））
上部の風化帯を通じて帯水層がつながっている可能性あり（メジャーイオン、放射性同位体組成の重なり、透水係数、若い地下水（年代測定））

空中電探、水質分析、地下水年代測定等を実施することで、地下水流動経路と影響の原因を特定した、という内容でした。

国内では、建設範囲外でこれだけ広域の調査を実施することはレアでしょう。温泉や重要水源への影響検討の場合は実施する場合があるものの、空中電探まではしていないでしょう。が、やるべきなのでしょうね。いろいろな可能性を考えて調査を提案することが、後のリスク低減に繋がります。それが重要である点をこの文献は示唆しています。
実務のお手本になるような文献でした。

2024年11月11日月曜日

VisionTransformer

先日書き残しましたが、LSM 作成に transformer が利用されていました。
https://phreeqc.blogspot.com/2024/11/landslide-susceptibility-map-using-ml-5.html

transformer を利用したいと思っていたのですが、実務では画像分類での ViT を先に触りました。結果は他のアーキテクチャを抑え Best Score。また一つ、外せない選択肢が増えました。

先月、ViT の図書が発売されました。おそらく、国内では2冊目でしょう。先の本もわかりやすいのですが、こちらも good。変化するテンソルの大きさが良くわかります。CNN同様に、これから解説本が増えていくかもしれません。

「Vision Transformer／最新CNNアーキテクチャ画像分類入門」

図書には transformer 以降に提案されたネットワークアーキテクチャがいくつか整理されています。2020年末から２～3年で多くのネットワークが提案されているのは、CNNの頃と変わらないでしょうか。

CNN とのハイブリッド手法については、まだ触れる機会がありません。遅れないようについていきましょう。

2024年11月10日日曜日

国内のLSM、ハザードマップ、リスクマップ

日本では、「Landslide Susceptibility Map」に対応する統一的な用語はまだ確立されていません（産総研さんは「感受性マップ」でした）。
土砂災害に関するマップは古くから作成されていますが、様々な表現が用いられています。「ハザードマップ」と「リスクマップ」についても、明確に区別されずに使用されています。

崩壊の危険度に関するマップとして、まずは深層崩壊。国交省から公開されていますが、ここでは隆起量や地質を考慮されているようです。豪雨時のハザードマップの材料として利用可能でしょう。

●深層崩壊推定頻度マップ
過去の発生事例から得られている情報をもとに深層崩壊の推定頻度に関する全国マップを作成しました。（2010/08）
●渓流レベル評価マップ
空中写真判読等による深層崩壊の渓流（小流域）レベルの調査。（2012/09）
https://www.mlit.go.jp/mizukokudo/sabo/deep_landslide.html

地震時の斜面崩壊に対するハザードマップもあります。
この六甲式は評価手法になるのですが、得られるのはマップです。シンプルな式ですが、経験的に良い性能を発揮します。
●六甲式
国総研資料　第 204 号
参考：地震による斜面崩壊危険度評価判別式「六甲式」の改良と実時間運用

さらに一歩進んだリスクマップも公開されています。国内では崩壊データが整備されていませんので、土砂災害データが利用されていたり、民家の有無も考慮されたうえでの評価がなされています。
●土砂災害発生確率マップ（案）
国総研資料　第 1120 号
●ハザードマップポータル
ハザードマップポータルサイト
●キキクル
気象庁 | キキクル（危険度分布）

現状、機械学習を導入するだけで良いマップを作ることができるとは考えていません。おそらく、よく検討された六甲式や土砂災害確率マップの方が実態に近い結果を得られると思います。
将来、過去の崩壊データが整備される、あるいはリアルタイムで整備されるしくみが整い、人の手に負えなくなる量が毎年加えられる、というようなことになるかもしれません。そのような場合に、重回帰に代わってDNNを使う、適中率と捕捉率の同時向上＝F1マクロを評価指標としてトレーニングする、などという取り換えが可能となり、良質なマップができるようになるのでしょう。

国内では、機械学習による LSM 作成を試しながらも、データ収集・提供の仕組みを整える必要があるのでしょう。

2024年11月9日土曜日

Landslide Susceptibility Map using ML その6

天然ダムによる河道閉塞が発生するか？まで考えられた文献です。

A global-scale applicable framework of landslide dam formation susceptibility | Landslides

イタリアと日本全土が検討済みです（著者は中国の方のようです）。LSMを作成した後、川に重ねて河道閉塞リスクを検討されています。道路への影響検討を扱った文献はいくつか見てきましたが、天然ダム形成については初めてです。（３）式がどこまで実態に即しているのかはわかりませんが、一歩進んだ取り組みでしょう。

Fig. 6

2024年11月4日月曜日

Landslide Susceptibility Map using ML その5

Improving landslide susceptibility prediction through ensemble Recursive Feature Elimination and meta-learning framework | Research Square

2024年の文献です。
特徴量選択にアンサンブル（多数決）を利用しています。個々のモデルでは、RFECVを利用。さらに、ベースモデル ‐LRによるスタッキングを通して最終的な出力を得ています。

Full article: Near real-time spatial prediction of earthquake-induced landslides: A novel interpretable self-supervised learning method

こちらは transformer を利用されています。
pre-training 後に fine-tuning を実施したところ、他の手法より AUC がよかったよ、という報告です。

transformer ではグローバルな発生データを活用する pre-training が可能であり、データ量の多さを活かして高度な特徴学習ができそうです。それをローカルの発生・非発生データで fine-tuning することで、未知のデータに対する汎化性能を保ちつつ、ローカルな特性を捉えたモデルを構築できます。ローカルのために世界のデータを利用するという報告は"その2"で書き残しました。が、この場合は XGBoost ですので pre-training の概念がないですし、学習時に利用するにしても相応の非発生データが必要になります。

利用する特徴量を決めておいて、世界でデータを整備しておけば、事前学習済みデータとして配布・利用できそうです。幸か不幸か国内はこれからですので、特徴量に使える国内データの整備が進むとありがたいですね。

2024年11月3日日曜日

Landslide Susceptibility Map using ML その4

Full article: An integrated neural network method for landslide susceptibility assessment based on time-series InSAR deformation dynamic features

時系列 DInSAR を特徴量として使用されています。変動量はSBASでもチェックをされているようです。SARというと、つい地震前後の差分をイメージしてしまいますが、地震前の変動量を利用することは言われて初めて気づいた重要なポイントですね。

24 stages of time-series InSAR cumulative deformation information are taken every 96 days per quarter.

国内で Landslide Sasceptibility Map を産総研さんの研究以外で聞いたことがありません。それを作成するための機械学習も土木分野では浸透していません。あっても SVM とか Random Forest などクラシカルな手法が使われているように感じます。が、この分野の研究では複雑な特徴に対応するため、または精度向上のために DNN 等が利用されています。

Based on traditional linear statistical analysis, machine learning methods stand out by virtue of their ability to examine large amounts of data independently. Machine learning methods, such as random forest (RF) (Dou et al. Citation2019) and logistic regression (Zhang et al. Citation2019), have been extensively used in LSA. However, under the requirements of complex scenes or high precision, traditional machine learning algorithms cannot meet actual demand (He et al. Citation2021a; Zhao et al. Citation2022). Building on the neural networks present in machine learning, the neural network method effectively predicts complex nonlinear dynamic systems. It has been widely and successfully introduced into the field of LSA, including the convolutional neural network (CNN) (Wang, Fang, and Hong Citation2019; Gao et al. Citation2023a), recurrent neural network (RNN) and deep belief network (DBN) (Chen et al. Citation2020). The convolutional layer of CNN can extract multidimensional features from the input images and has good performance (Hakim et al. Citation2022). Gated recurrent unit (GRU) network of RNN variant has good performance in processing sequence data (Zhao et al. Citation2022). With the complexity of the environment, when faced with a limited sample, the ensemble learning model is also widely used in the LSA. For example, Wang et al. (Citation2022) conducted the LSA based on the XGBoost ensemble learning model. Lv et al. (Citation2022) combined CNN, DBN and ResNet models with the ensemble learning techniques of Stacking, Bagging and Boosting to generate the LSA.

日本は２ステップ遅れている状況です。せめて LSM 作成のためのデータは整備していただきたいものです。そうすると土木に携わっていない機械学習エンジニアが参加しやすく、多様な目的のマップが作成されるようになるでしょう。その時々の、最新のアーキテクチャで。

登録: 投稿 (Atom)

Geochemist？