画像を与えて機械に説明させるという手法は昨年から導入しています。
一昨年まで画像ならCNN!とか言っていたのに、ViTにその座を奪われつつあり、移り変わりが速いなあと思っていたら、昨年末には一般誌にコンクリートのクラック画像をLLMで説明させる内容が掲載されていました。もう、世間はそこまで進んでいるのだなとプチショックを受けていたところです。ちょっと気を抜くと取り残されそうで、怖いですね。
Computer Vision の専門家からも、提案がありました。
マルチモーダルAIによる地すべり画像解析と災害リスク評価 – Tohoku CVLab
Fig13 を見ると、全体としてはまだ追いつかれていないかな、と少しばかり安堵しますが、時間の問題でしょう。右側のVQA-LLMはなかなか。GTのLandslideより、土石流の方が正解のように見えます。左側は天然ダムと間違えるのも感覚的にわかります。面白い。
専門家でなくとも専門家のような答えを出せる機械、これは専門家も欲しいのではないでしょうか?近い将来における機械学習結果の使い方が楽しみになります。
0 件のコメント:
コメントを投稿