データ整備
データ整備とは、企業活動していく上で、社内、社外にあるデータを活用できる情報にすることです。
データ整備とは
データ整備とは、企業内、企業外にある情報を必要なデータまたは情報にし、企業活動に活用できるように、データ移行、データ分析、DWH構築、BI活用、AI導入、DX(デジタルトランスフォーメーション)推進に必要とされ、データ前処理、データプレパレーションと類似しています。
データ整備の位置づけ
情報システムは、「データ収集」、「データ転送」、「データ整備/加工」、「データ蓄積」、「データ処理/分析」、「ビジュアライズ」の工程で構成されています。
- データ収集は、業務システムのデータ、DWH(Data WareHouse)/CRM(Customer Relationship Management)データ、ログデータ(コンピュータや通信機器が一定の処理を実行したこと(または実行できなかったこと)を記録したデータ)、ソーシャルデータ(Facebook、Twitter、LINEなどの個人間のコミュニケーションデータ)、画像、動画、センサーデータ(心拍センサー、加速度センサー、位置情報センサーから出力される品質の良いデータ)利活用できるデータを選別する
- データ転送は、選別したデータを発生した場所から、データ蓄積の為に、集めてくる
- データ整備/加工は、集めてきたデータを蓄積・保存する為に、「項目の整合性」、「不完全、異常値、不要データ除去」、「二次属性の付与(新項目の作成、グループ化(新区分))」を行う
- データ蓄積は、ほぼ明細に近い形で保存する
- データ処理/分析は、「テーブル結合/JOIN」、「検索/抽出」、「集計」、「計算(項目名内データ修正)」「ファイル出力」を行う
- ビジュアライズは、ファイル出力されたデータ(情報)を見やすい形に出力する
上記工程のうちデータ整備は、「データ整備/加工」と「データ処理/分析」のデータ処理工程です。
データ整備の重要性
データ分析、ビジュアライズで、情報の見える化(企業活動に活用)、DX(デジタルトランスフォーメーション)推進につながりますが、データ整備が分析結果の優劣及び費用の増減を大きく左右する重要な工程です。
AIにおける機械学習(学習データ、適用データ、テストデータ)のデータ整備は、POC(Proof of Concept、概念実証)だからと言っておろそかにすると(データ整備の工数及び費用をかけない)用意されたプログラム群が優秀でも、期待する結果とは程遠いものになります。
データ整備の課題
- IoT、BD(ビッグデータ)、AI時代では、データ量が増大する。
- データ整備は、システム部門からデータ活用部門へ役割が移管され、システム技術のない人材(Excelの簡単な操作知識はあるが、SQL文は理解できない)でも、データ整備にアドホック処理(トライ&エラーで、すぐに結果を見たい場合や、そもそも結果が正しいかどうかを確かめ、ほしいデータを明確にする処理)が求められる。
データ整備サービスの詳細
データ整備サービスでは「データ確認」と「データ整備」を繰り返し、データ活用の課題解決をお手伝いいたします。
Step1 データ確認(データ確認レポート):データ項目毎の「最小値、最大値、最小件数、最大件数、最小桁数、最大桁数」をレポートで確認
CSVファイルとテーブル仕様をお預かりし、データ確認レポートを短期間(最短2日)で作成いたします。
テーブル編集仕様の作成をお客様で行うことが難しい場合は、弊社にて作成サポートも行っていますのでご安心ください。
Step2 データ整備:テーブル編集仕様をもとに、新たなデータを作成
いただいたテーブル編集仕様を元に、お預かりしているCSVファイルを整備・加工して、短期間(最短4日)でCSVファイルをお返しいたします。
Step3 データ再確認(データ確認レポート):新たなデータ項目毎の「最小値、最大値、最小件数、最大件数、最小桁数、最大桁数」をレポートで確認
データ整備が終わった後のCSVファイルがテーブル編集仕様に沿ったデータであることを、データ確認レポートによって確認いたします。
もしER図をいただくことができれば、テーブル間整合性レポートの作成も合わせていたします。