2020年1月4日土曜日

機械学習 メモ

技術評論社「Kaggleで勝つデータ分析の技術」を読みました。

一通り押さえていた内容でしたが、知識止まり。Kaggle に参加して勝てるほどの実力や経験はありません。説明されているテクニック等が既に血肉となっている方々に傍にいてほしいものです。

以下、気になった箇所のメモです。
*****************************************
特徴量作成(時系列データ)
・ラグ特徴量
・曜日
・時間帯
・期間:注文間隔最大-最後の注文からの経過時間(kaggle Instacart Market Basket Analysis)

・緯度経度→binning→文字列として連結→target encording
・GBDT:特徴量の加減はモデルが扱える, 乗除は追加する必要あり

対数
・log(x+1):np.log1p(x):0の取り扱い
・Box-Cox, Yeo-Johnson:負値の取り扱い

次元削減
・UMAP

モデル
・初手:GBDT
・次に検討:NN、線形モデル(アンサンブルの一つや、スタッキングの最終層)
・多様性:K-Neighbor、決定木ベース
 (SVMなし)

モデル評価
・時系列データのバリデーション手法
・学習データとテストデータの分布が異なる:adversarial validation

モデルチューニング
・パラメータチューニング(xgboost の具体的なチューニング方法)
・特徴量選択と重要度

0 件のコメント:

コメントを投稿