目から鱗の文献でした。自分の頭の固さを痛感します。
画像キャプショニングは画像そのものよりも多くを語る
画像キャプショニング(image-to-text)の技術を活用して、入力画像に対する説明文を自動生成し、その情報から画像を分類する取り組みでした。これまで、生成AIの発展は自分の仕事には直接関係ないと考えていましたが、その認識は大きな誤りでした。反省です。
Transformerと同様の仕組みが採用されているようで、事前学習モデルも配布されています。ファインチューニングによって精度を出し易くなっているのでしょう。
UAVなどで撮影した動画から構造物の異常を抽出するアプローチにおいては画像解析やセグメンテーションといった従来技術が主流でした。が、生成AIを活用すれば、既に正確な異常検知が可能になっているのではないでしょうか。これまで画像を扱ってきた方々の技術の延長とはやや遠い手法ですので、なかなか思いつかないでしょうね。https://phreeqc.blogspot.com/2025/02/blog-post_26.html
道路分野では、ドライブレコーダーから画像を受けて、リアルタイムで注意を促すなどといった使い方もできそうです。被災後に走るだけで異常個所の状況が写真とともにサーバーに集約される、というようなシステムも組めそうです。自動車メーカーさんなら既に手を付けられているかもしれません。
異常の有無だけなら実装は容易でしょうが、状況をより詳しく説明させるとなると、学習させるテキストデータが重要でしょう。画像の特徴(名称、異常箇所など)を適切に盛り込み、状況を明確に教える必要があります。プロンプトを利用する場合も同様でしょう。さらに、危険度の評価基準(危険度A,B,Cなど)や、対応策のレベル(緊急対策、監視など)を具体的に記述しておくべきでしょうね。そうすることで、生成AIが汎用性を保ちながらも、個々の状況に応じた適切な分析結果を出力できるようになると思います。
適当なデータセットが手元にないので真の実力を把握することはできませんが、単純なマルチクラス分類ならいくつかあります。ひとまずそれらで生成AIの実力を見てみましょうか。
**********************************
20250331 追記
BLIP を利用したのですが、Transformer ベースのアンサンブルモデルの結果を3回のトライで超えました。しかも、学習にそれほど時間がかかりません。生成AI、恐るべし。
0 件のコメント:
コメントを投稿