2019年12月31日火曜日

機械学習モデルの解釈可能性

機械学習モデルの解釈可能性に関する、素晴らしいスライドと kaggle マイクロコースです。スライドの1、マイクロコースの2が昨日の特徴量評価にあたります。

スライド
https://speakerdeck.com/line_developers/machine-learning-and-interpretability

1. どの特徴量が重要か
 Feature Importance
2. 各特徴量が予測にどう影響するか
 Partial Dependence
 Surrogate Model
3. ある予測結果に対して特徴量がどう寄与するか
 LIME, SHAP
 Grad-CAM, Grad-CAM++

kaggle
https://www.kaggle.com/learn/machine-learning-explainability

1. Use Cases for Model Insights
 Why and when do you need insights?
2. Permutation Importance
 What features does your model think are important?
3.Partial Plots
 How does each feature affect your predictions?
4.SHAP Values
 Understand individual predictions
5.Advanced Uses of SHAP Values
 Aggregate SHAP values for even more detailed model insights


両者に出てくるSHAP、発想は面白いですね。単純な数式でモデルの推定結果を模擬し、各特徴量にかかる係数で定量的に結果への寄与度を表現しています。これは決定木ベース以外の説明できなかったモデルに対する解釈性の要望を反映したものでしょう。

が、正解を模擬しないのはなぜでしょう。あくまでモデルの解釈性を加えることが目的だからでしょうか。それとも理解できていないのでしょうか?
精度を犠牲にしつつ解釈性を加えた簡易モデルの追加。そこまでして「ブラックボックス」を避ける必要はないと思います。最後に判断するのはヒトなので。

このあたり、機械学習分野の今後の動向が注目されます。


********************************
20200104追記
技術評論社「Kaggleで勝つデータ分析の技術」
6.2特徴量選択および特徴量の重要度
6.2.2 特徴量の重要度を用いる方法
・モデルから出力される重要度:RF、GBDT
・他の方法:Permutation Importance、null importance、boruta、特徴量の機械的大量生成


0 件のコメント:

コメントを投稿