https://www.ncc.go.jp/jp/information/pr_release/2018/0721/index.html
最近ではグレードも判定してくれるそうですが、1年前なので2値分類にとどまっています。陰性・陽性を約90%で正答するとのこと。文面からは、以下のような枚数だと思われます。
N | P | ||
N | 4911 | 271 | 0.948 |
P | 964 | 3854 | 0.800 |
0.836 | 0.934 |
比較的バランスの取れたデータセットでの結果でしたが、インバランスだったらどうでしょう?
例えば、10000画像に異常10画像(9990画像は正常)の場合。90%正当として、9990×0.1=999はガンと誤判定します。そして、10*0.1=1画像は正常として機械は見逃します。
ガンと判定された999+9=1008画像から9枚のガンを見つけるのは、スクリーニング前に比べ1桁分楽になっています。が、正常と判定された9990-999+1=8992画像の中から機械の見逃したガン1枚を人が探す必要に迫られます。これは大変。
将来的にはダブルチェックの片側をAIに委ね、専門医減少に対応する、といったような計画でしょうか?患者側としては、AIに頼ってもらわない方が判読にバイアスがかからないため、安心できそうです(技量の低い専門医には役立つといわれても、それはそれで不安が募ります)。
「高精度検出」「約90%」といっても、実用化できるレベルには遠いのでしょう。
データサイエンティストとしては、十分な結果ですが。ここからの精度向上は他人事でもないので、つらい現状ですね。
0 件のコメント:
コメントを投稿