2024年1月3日水曜日

事例で学ぶ特徴量エンジニアリング

 オライリー・ジャパン 「事例で学ぶ特徴量エンジニアリング」

全体の8割までは容易に達成できますが、残り2割を詰めるのに時間がかかる、というのは万事共通です。機械学習を系統立てて学んできたわけではないですし、プロでもありません。最近は知見収集をサボっていましたので、冬休みの間に追いつこうと、この本を手に取りました。

以下、備忘録です。

  • null Accuracy (null 正解率): inballance データセットにて、すべてのデータが最も多いカテゴリーであると予測した場合の正答率。これを超える必要がある。
  • 対数変換 log(1+x): x=0 を扱える。
  • ドメイン特化型の特徴量作成: 患者が2つ以上の症状を呈している場合にTrue。
  • FeatureUnion: すべてのパイプラインをまとめる。
  • 特徴量選択: 相互情報量、仮説検定、決定木

  • Fairness (公平性): 性能が良いだけでなく、公平とみなされる予測を目指す。
  • Decile Score (デシルスコア): 10パーセンタイル毎に1~10のラベルを割り当て。
  • 少数データラベルの付け替え
  • Dailex, AI Fairness 360 (AIF360)

  • オートエンコーダーによる次元削減 (TF Keras)

  • HOG特徴量
  • PCA 分散説明率
  • VGG11

  • エクスパンディング特徴量
  • Moving Average Convergence Divergence (MACD; 移動平均収束拡散)
    Exponential Moving Average (EMA;指数移動平均)
    y0 = x0, yt = (1 - α)yt-1 + αxt
    data.ewm(span=12, adjust=False).mean()


0 件のコメント:

コメントを投稿