機械学習での高次元境界を、2次元で見たい希望は多くあるようです。
例えば、コチラとか、
https://stackoverflow.com/questions/37718347/plotting-decision-boundary-for-high-dimension-data
コチラ。
https://urusulambda.wordpress.com/2018/05/19/sklearn%
下の方の考え方は容易なのですが、PCA など高次元を投げつけた機械学習モデルとは異なる手法で縮約するため、学習で重視した特徴量と異なる特徴量を主成分に近いとみなす可能性があります。結果、使えない図になる可能性があります(実際、手持ちのデータではダメでした)。同じバイアスがかかるなら最初から圧縮し、2次元データに対して機械学習をかける方が素直でしょうか。
両方で紹介されているのはコレ。
https://github.com/tmadl/highdimensional-decision-boundary-plot
実質は下の方と同じようなことなのですが複雑。超球面上で確率0.5を探すことも使われているようですが、このような発想はなかったですね。ま、高次元ですから超球面に行きついたのでしょう。
試したところ実装自体は容易で、計算時間もそれほどかかりませんでした。が、結果があまりきれいではありません。いえ、綺麗な境界線になると思う方が誤りなのでしょう。元が高次元なのですから。
3次元になると一気に頭がついて行かなくなり、4次元になると想像すら難しい。ですが、数字での表示や計算は可能。何とかついて行けば、そのうち「見える」ようになるかしら?期待しながらついて行きましょう。
0 件のコメント:
コメントを投稿