2018年12月31日月曜日

大規模データの扱い

メモリに載らない大規模データを、機械学習にかけたい場合にどうするか?

1.メモリに載るように細分したデータを作成
ただし、計算時にオーバーフローする可能性あり。

2.メモリ容量のより大きなマシンで動かす
2-1.PC購入
高価。

2-2.クラウド利用(AWS)
2-2-1. EC2, Cloud Formation
https://phreeqc.blogspot.com/2018/10/aws-2.html
AWS マーケットプレイスに H2O あり。
無料のCPU版でも動くが、計算遅い。
GPU版はソフトの購入が必要(400万)。

2-2-2.SageMaker
コードを準備する必要あり。
=問題に応じて自由にスクラッチ可能。
=汎用性を持たせるのは困難

2-2-3. Machine Learning
H2O ライクでお手軽。
データは 100GB まで。
ロジスティック回帰のみ。

思いつくのはこの程度。本当はまだまだ選択肢(と正解)があるのでしょう。
傍にプロが欲しい。

0 件のコメント:

コメントを投稿