2018年11月25日日曜日

pandas

90万行×3列の csv データの処理。

後輩君が EXCEL で開いたものの、ピボットテーブルすら作成できなかったとのこと。もう一方が VBA にて処理するも、10万行くらいでフリーズするとのこと。
32bit 版だから、と思っていましたが 64bit 版でもダメ。ま、大きなデータをEXCELだけで処理しようとすること自体が無謀なのでしょう。

今回はヒストグラムを見たかったので、python+pandasで処理(実際はmatplotlibをpandasからcallしているようです)。
EXCELシートを読み込んで、ヒストグラムとサマリーを作成。ピボットテーブルを複数作成し、集計・演算を経て、EXCELデータとして保存。
ピボットテーブルの作成では、全データを複数の項目で整理しようとしたケースのみ時間がかかりました。ヒストグラムの作成や演算は軽い。
一番時間がかかるのは、書き込みですね。HDF5 だと速いのですが、EXCELへ持っていけません(書き出せないデータもありましたが)。

pandas を追加するだけ。pandas 偉い。

0 件のコメント:

コメントを投稿