コース: データ分析の基礎知識

データのベストプラクティスとは

コース: データ分析の基礎知識

データのベストプラクティスとは

あなたはデータ分析の前に何をしますか。 私はデータアナリストとしての 長年の経験から どのデータセットについても 分析前にやるべきことを知っています。 手順はソフトウェアによって 多少異なるかもしれませんが、 ここでは Microsoft Excel を使って 説明していきましょう。 このトランザクションリストは 分析で使うソフトウェアから エクスポートしたものです。 普通、レポート作成やプロジェクトのために データを処理するときは、 何らかの目的があります。 今回は特に目的はありませんが、 このデータセットを理解するために どのデータセットでも行う事前作業について 説明します。 データセットについて知るためには、 前もって少し時間をかけましょう、 そうすれば、プロジェクトの目的の達成に 役立つはずです。 Excel がソートやフィルターなどの コマンドを実行するのは データセットとして認識するものだけです。 重要なのは、 データセットとして認識されることです。 ですので、まず、 作業対象のデータ全体を Excel がデータセットとして 認識しているか、 つまり、データに切れ目がないかを 確認します。 最初にお気に入りの ショートカットキーを使って この範囲外にある すべてのデータを選択します。 Ctrl キーを押しながら A を押します。 大量のデータが表示されているので、 全部選択されたように見えますね。 でも、画面を縮小すると すぐにデータに切れ目があることが わかります。 Z 列が全部空白です。 このように Excel は ソートなどをすると すべてのデータを左に寄せます。 修正するには、 Z 列を右クリックして削除します。 (音声なし) もう一度 Ctrl と A を押してみると、 Excel が認識できる 切れ目のないデータセットになりました。 これでソートやフィルターなどの コマンドを簡単に使えるようになります。 では、Ctrl と HOME で A1 に移動しましょう。 処理を進める前に 忘れずやらなければならないのが データのコピーです。 マウスをトランザクションリストの一番下の このシートのタブに置いて、 Ctrl キーを押したまま 右に向かって ドラッグアンドドロップします。 このとき必ず先にマウスを離してから Ctrl キーを離してください。 これでコピーができました。 名前を「Working Copy」、 作業コピーにします。 こうすれば、万が一 失敗しても安心です。 では、このデータを詳しく見てみます。 取引 ID など、 名前に ID が付いたフィールドは データベース用語で キーフィールドと言います。 こういうフィールドがいくつあるか 見てみます。 シート全体を選び、 A 列と B 列の列番号の境目を ダブルクリックすると、 列幅が自動調整されます。 「取引 ID」や「商品 ID」、 「参照受注 ID」があります。 これらはキーフィールドなので、 この中に重複がないかが気になります。 ですので、「取引 ID」を 強調表示してみます。 「取引 ID」のデータはすべて 一意でなければいけないので、 セルの強調表示で 分析する前に重複がないか確認します。 「条件付き書式」設定から 「セルの強調表示ルール」、 「重複する値」を選択します。 重複を含むセルの色を設定したら、 「OK」をクリックします。 データを見ていくとすぐに いくつか重複したデータがあることが 確認できます。 こんなに重複しています。 集計やカウントのときに 余分なデータが多すぎます。 この重複を処理しましょう。 Ctrl と HOME で A1 に戻ります。 色が付いていて 重複フィールドがわかるので、 作業しやすいですね。 取引が重複しているのは 取引 ID が重複しているからです。 重複データが赤で強調表示されているので わかりやすいですが、 強調表示なしだと 膨大なデータの中から見つけるのは 難しいかもしれません。 重複を削除しましょう。 本当に削除されますが、 さっきコピーを作ったので 間違えても安心です。 「データ」から 「重複の削除」を選択します。 「すべて選択解除」、 「取引 ID」を選んだら、 「OK」をクリックします。 大量の重複が見つかり、 一意のレコードは 1,228 個だけとなっています。 「OK」をクリックします。 これでデータセットの整合性が取れ、 空白の行や色付きの列がなくなりました。 これで重複はなくなりました。 万が一のためのコピーもあるので、 安心して作業できます。 他にもさまざまな方法がありますが、 Excel のデータについては、 ここで紹介した作業を行うことを お勧めします。

目次