データ概観

DX推進に向けたデータ活用のためには、データを概観することが大切になります。データの何を見れば概観したことになるのか解説します。

1 データ概観の重要性
2 データ概観の手法
3 データ整備サービス

データ概観の重要性

DX推進にはデータ活用が重要であることは言うまでもありません。長年のシステム運用で蓄積されたデータ、IoTで取得された新たなデータ、インターネット上に公開されているオープンデータなど様々なデータを収集します。そして、次に行うべきことは収集したデータを概観することです。このデータ概観がデータ活用における重要な工程となります。

データ概観により、「本当に活用できるデータなのか」、「不正なデータ、想定外のデータや欠損値が存在する場合には、該当するデータをどのように取り扱うのか」を十分に検討することができ、有効なデータ活用へとつながります。

データ概観を疎かにし、不正なデータの存在に気づかずにデータ活用すれば、思った結果を得ることはできません。データドリブン経営が叫ばれる昨今、経営を誤った方向へと舵を取ることにもなりかねません。

データ概観の手法

では、データ概観のために、どのような手法でどのような情報を得るのか。一つの手法として、PythonのライブラリPandasにあるdescribeというメソッドを使う手法があります。describeを使うことでデータの基本統計量を取得できます。
数値データの場合、データ数（count）、平均値（mean）、標準偏差（std）、最小値（min）、第一四分位数（25%）、中央値（50%）、第三四分位数（75%）、最大値（max）の８項目を取得できます。
数値データの概観には十分です。むしろ、平均値、標準偏差、第一四分位数、中央値、第三四分位数はデータ概観の時点では不要です。

平均値などこれらの値は、データに異常値が含まれていると、その異常値も含めた結果が算出されます。また、システムによっては、数値データは初期値として0が設定されることが多く、入力値の0なのか、未入力の0なのか項目単独では判断できません。未入力の0は欠損値として扱わなければ正しい結果を得ることはできません。数値データの場合は、データ数、最小値、最大値がわかれば、異常値や不正値が無いかを確認することができます。
では、文字データの場合はどうでしょうか。文字データの場合は、データ数（count）、重複を排除したデータ数（unique）、最も多く含まれるデータ（top）、そのデータが含まれる個数（freq）の４項目を取得できます。
文字データの概観は少し不十分だと言えます。数値データと同様に最大値と最小値が必要ですし、桁数も重要な要素となります。

誰もが理解できる事例として郵便番号があります。郵便番号は７桁の数値で構成されていますから、桁数が７桁以外のデータが存在した場合はそのデータは不正なデータです。このように文字データの場合は、describeメソッドだけではデータ活用に向けたデータ概観には不十分です。数値データ同様に、データ数、最小値、最大値、加えて最小桁数、最大桁数がわかれば、異常値や不正値が無いか確認することができます。

関連記事：異常値排除に関する記事はこちら