データ概観
DX推進に向けたデータ活用のためには、データを概観することが大切になります。データの何を見れば概観したことになるのか解説します。
データ概観の重要性
DX推進にはデータ活用が重要であることは言うまでもありません。長年のシステム運用で蓄積されたデータ、IoTで取得された新たなデータ、インターネット上に公開されているオープンデータなど様々なデータを収集します。そして、次に行うべきことは収集したデータを概観することです。このデータ概観がデータ活用における重要な工程となります。
データ概観により、「本当に活用できるデータなのか」、「不正なデータ、想定外のデータや欠損値が存在する場合には、該当するデータをどのように取り扱うのか」を十分に検討することができ、有効なデータ活用へとつながります。
データ概観を疎かにし、不正なデータの存在に気づかずにデータ活用すれば、思った結果を得ることはできません。データドリブン経営が叫ばれる昨今、経営を誤った方向へと舵を取ることにもなりかねません。
関連記事:DX推進に関する記事はこちら
関連記事:IoTデータに関する記事はこちら
関連記事:データドリブンに関する記事はこちら
データ概観の手法
では、データ概観のために、どのような手法でどのような情報を得るのか。一つの手法として、PythonのライブラリPandasにあるdescribeというメソッドを使う手法があります。describeを使うことでデータの基本統計量を取得できます。
数値データの場合、データ数(count)、平均値(mean)、標準偏差(std)、最小値(min)、第一四分位数(25%)、中央値(50%)、第三四分位数(75%)、最大値(max)の8項目を取得できます。
数値データの概観には十分です。むしろ、平均値、標準偏差、第一四分位数、中央値、第三四分位数はデータ概観の時点では不要です。
平均値などこれらの値は、データに異常値が含まれていると、その異常値も含めた結果が算出されます。また、システムによっては、数値データは初期値として0が設定されることが多く、入力値の0なのか、未入力の0なのか項目単独では判断できません。未入力の0は欠損値として扱わなければ正しい結果を得ることはできません。数値データの場合は、データ数、最小値、最大値がわかれば、異常値や不正値が無いかを確認することができます。
では、文字データの場合はどうでしょうか。文字データの場合は、データ数(count)、重複を排除したデータ数(unique)、最も多く含まれるデータ(top)、そのデータが含まれる個数(freq)の4項目を取得できます。
文字データの概観は少し不十分だと言えます。数値データと同様に最大値と最小値が必要ですし、桁数も重要な要素となります。
誰もが理解できる事例として郵便番号があります。郵便番号は7桁の数値で構成されていますから、桁数が7桁以外のデータが存在した場合はそのデータは不正なデータです。このように文字データの場合は、describeメソッドだけではデータ活用に向けたデータ概観には不十分です。数値データ同様に、データ数、最小値、最大値、加えて最小桁数、最大桁数がわかれば、異常値や不正値が無いか確認することができます。
データ整備サービス
弊社が提供している「データ整備サービス」では、まず「データ確認」を実施します。
データ概観に必要な情報(各項目ごとに数値データ、文字データ問わず、「最小値、最大値」「最小件数、最大件数」「最小桁数、最大桁数」)を調べ、「データ確認レポート」を作成します。
「データ確認レポート」によりデータ概観していただくことで、異常値や不正値の有無が確認でき、そのデータをどのように取り扱うのかを考慮した「テーブル編集仕様」を作成できます。
整備後のデータに対しても、「データ確認レポート」を作成することで、データが正しく整備できたかデータ概観できます。詳しくはホームページをご覧ください。
関連動画:デジタライゼーション