2018年9月13日木曜日

データサイエンス

研修でのお話。

今、求められる技術者はπ型。T型ではダメだとのこと。

なぜか?

AIが登場したかららしい。

ふわっとした答えですが、なんとなく仰りたいところはわかりました。

ま、私の仕事だと、理学(のうち2つ)・工学(のうち2つ)・情報(のうち1つ)くらいは必要なのではないかと感じています。πではなく、T×5。


先日よりT型の横線部分を太くしようと、以下の図書を読んでいました。

久野ほか「大学4年間のデータサイエンスが10時間でざっと学べる」

近年、大学で教えられ始めた「データサイエンス」。統計の延長かな?っと思っていたら、そうでもなかったようです。
授業では、計算を GPU に乗せたり、ライブラリを利用したプログラミング、データベースなども扱われているようです。ビッグデータを扱わざるを得ない状況ですので、その入れ物や入出力の方法についても基礎知識として学ぶ必要があるのでしょう。
もちろん、機械学習や近年のディープラーニングも対象となっています。今まで虫食い状に扱っていた内容が案外網羅されていましたので少し驚くとともに、このような内容を基礎知識として有している学生はありがたい、と感じますね。いまだ「プログラミングできません」「GPUって何ですか?」「データが大きくEXCELで開けません」と言われる方いますからね。問題を解決できないのではなく、解決するステージにすらたどり着けないのは残念。機会の損失リスクへの対応ができていない状態です。

この本で印象に残ったのは、以下の3点。

  • 機械学習とは、学習シナリオ(問題設定)をコンピューターに与え、それを解くように機会を訓練させる方法。(p110)
  • パラメトリックモデル(解釈性が高い)とノンパラメトリックモデル(真のモデルに近い可能性が高い)。(p120~121)
  • ディープラーニング:ネットワークの深層化と大規模化により高い汎化性能を実験的に実現←過学習しやすい問題をビッグデータでカバー←ハードウェアとネットの発展が下支え(p212~215)

今年度も、大量のデータを扱う必要に迫られています。
さくっと解決したいですね。


1 件のコメント:

  1. このコメントは投稿者によって削除されました。

    返信削除