週末は、昼大掃除、夜 python の生活でした。
数千万行のデータの扱いにも慣れ、図化までは早々に実装できました。が、それをブラッシュアップするのに時間がかかりました。使っていたデータに日本語が入っていたため、それを Matplotlib で表示させるとか、変数への手入力箇所を一元化するとか。Python の能力不足でなく、私の能力不足。ま、初心者ですから仕方ありません。
それでも、データ読み込みから複数の図化、出力まで10秒ほどで流せるようになりました。データ規模に対しては速い方だと思います。
使った中でのお気に入りは MatPlotlib の hist2d。最初は散布図を作成していたのですが、同じデータで縦横のビン数を指定すると2Dヒストグラムにしくれます。賢い。
そこから値を抜きだし、演算して新たなデータフレームを作成。pcolor 等を使えば同種の絵ができます。気を抜くと1行・1列少なりますが、そこさえ対策しておけば使える機能です。
まだ(私の能力不足で)使えない機能が山ほどあり、展開も速く、マスターするには道のりの長い言語になりそう。
ま、テストとしての第一段階(CPU での機械学習)、第二段階(大規模データの取り扱い)は終了しました。次の段階に向かいましょう。
このコメントは投稿者によって削除されました。
返信削除