最近、データサイエンスの本質は「データを理解すること」にあるように思えてなりません。
機械学習がいくら優れていても、与えるデータの質が悪ければ、それなりの結果にしかなりません。質が悪ければ良いデータに加工して、または質の良いデータを加えて、良いデータのみを選別して、与えるデータを見極める。「前処理」「特徴量エンジニアリング」と呼ばれる過程です。データを解釈する感覚と、多くの処理手法を知り置く必要があります。
これ、地味に難しいですよね。
データを見て、分離性や相関性を見極め、機械学習に与える。Random Forest では予想通りの重要度を示すのですが、LightGBM では真逆の重要度として出てくることも。
最初に多くの機械学習手法にかけて、重要な特徴量を選別する方が良いのかもしれません。プロはどうされているのでしょう?
機械学習に限らないのですが、「データをよく見て理解する」というのは重要なのに難しい。機械学習では、それについても一部で自動化が進みつつあるようですが、まだまだ人の感覚・判断も重要でしょう。感覚を掴み、磨きたいですね。
0 件のコメント:
コメントを投稿