2017年11月5日日曜日

ROC 曲線

H2O で 崩壊/非崩壊 の2値分類を学習・予測させてみました。

正答率はそれなりに上がるのですが、それに伴い NG(崩壊) を OK(非崩壊) とする「誤診」が増えます。データの種類として NG が圧倒的に少ないことも大きく影響しているでしょう。

H2O での検証結果を見て驚いたのが、先の土軟硬区分と表示が変わっていること。2値分類だとこのようなグラフ↓も書いてくれるのですね。賢い。
ROC曲線と呼ぶようです。知りませんでした。統計の知識が足りない。うーん。



調べてみると、医学分野では使われているそうですね。
https://www.jmp.com/ja_jp/medical-statistics/column/non-series/roc-curve.html
医学論文や学会のポスター発表で、ROC曲線とカットオフ値を記載しているものをよく見かけるかと思います。
実際ROC曲線は、診断法がどれぐらい有用なのかを知るときに使われ、曲線下の面積(AUC)によって定量化されます。
さらに、この値以上は”陽性”だと診断する閾値をどのように設定するかによって感度と特異度は変化していくので、陽性と陰性を分ける最適なカットオフ値を見つけることが重要になってきます。

なるほど、統計の基礎と、医学分野での一般的な利用法を学べば、前に進めそうですね。H2O に課題と解決への道筋を与えてもらったような気がします。


0 件のコメント:

コメントを投稿