2019年6月16日日曜日

カーネル密度推定(KDE)直感的理解

KDEの直感的な解釈です。
厳密でなくとも、概略イメージを先に持つことができると、後に数式がすっと頭に入りますし忘れ難いと思います。以下、個人的な解釈です。

「家の裏山が崩れた」時、ある観測値が0.5だったとします。

観測値0.5であれば、崩れる確率が高いと事後解釈できるかもしれません。が、0.4だとどうか?0.2だとどうか?わかりません。実は、1.0の方が崩壊しやすいのかもしれません。

ひとまずデータが集まるまでは、0.5周辺で崩壊確率がかなり高く、離れるほど低くなると捉えましょう。たとえば、以下のように。


この形は「正規分布(ガウス分布)」。
山のような形でなく、どのような形(三角でも矩形でも)を選んで良いのですが、モデル化では連続(なめらか)かつ数式(関数)として扱える方が便利。
縦軸は確率密度と呼ばれています。横軸の特定範囲でたせば(面積)、その範囲で発生する確率になります(これが確率密度関数の定義。全て足せば1.0)。なお、バンド幅h=0.05を考慮した形にしていますが、そこはひとまず気にしないことにします。

しばらくすると、また崩壊が発生。この時の観測値が0.06。
この時、崩壊を導く値(ピーク)が2つあるのでは、と考えた場合、こうなります。

次の観測値が0.45、0.95。
重なっているところがあるので、単純に足してデータ数4(とバンド幅0.05)で割って、ならしておきましょう。破線で表示される密度分布で、3つのピークができました。


観測を続けて足し合わせると、このような形になりました。0.05、0.5、0.9付近で崩壊する確率が高いと判断できます。

このような尤もらしい破線を推定する作業をカーネル密度推定(KDE)と呼びます。
上記の場合、カーネルとしてガウス分布を採用し、不明な母集団の関数を推定したという作業になります(正しく推定できているかどうかは別問題)。

そういえば、先日読んでいたベイズ統計の教科書にも似たような記述がありました。
カーネルを使った推定手法は、他にもいくつかあるようです。それらは理解できていませんが、必要になった際に覚えましょう。

0 件のコメント:

コメントを投稿