2021年3月2日火曜日

データチェック

なぜか結果が合わない、ということで原因を探りに探ると、出発点のデータにミスが見つかりました。

決定的だったのは、データの一部に異物が混じっていたこと。日本全国、30年強のデータの中の数日分が異なっていても、なかなか気づくことはできません。

結果が合わないと気づいたのは、異なる手法で2回計算したことによります。
以前はチェックに可視化が有効でした。が、最近は可視化すら難しいデータ数になりつつあります。今のところ、チェックするには異なる手法で2回計算するしか思いつきません。計算過程のチェックだけではダメ。大量データの組み合わせなど、全ケースを想定できるほど賢い頭を持っていませんので。

時間のない中、大量のデータの加工からやり直しとなると、数年前では絶望的でした。今は何とかリカバリー可能です(たぶん)。個人的にも処理能力は数段上がったと思います。が、処理能力が上がると、それに応じて負荷がかかる状態。いつの時代も変わりません。量的な生産性向上のみではダメなのでしょうね。

もう少し、頭を使ってみましょう。

0 件のコメント:

コメントを投稿