データ準備
グローバリゼーションやライフスタイルの多様化が進んでいる現代において、ビジネスの成功には膨大に存在する情報を迅速に収集・分析し、意思決定することが求められます。
しかし日本国内においてはまだまだデータ活用ができていない企業が多いのが実情でしょう。適切なデータ分析を行うためには良質なデータが必要であり、そのために不可欠とも言えるのが、「データ準備」という概念です。適切なデータ準備を行うことで企業の意思決定を適切に行うことが可能となるでしょう。この記事では、データ準備の概要や必要性、ETLとの違いや活用事例について解説していきます。
目次
データ準備とは
ここでは、データ準備(データプレパレーション)の概要やその必要性について解説していきます。
データ準備の概要
データ準備を一言で表現すると、データを使える状態にすることです。社内外のデータを組み合わせてデータ分析を行うことを想定した場合、まず分析に必要なデータを集めてくることから始めます。これが、データ準備の第一歩となります。
では、データはどこにあるでしょうか。
業務システムのデータであれば、システムごとのデータベース上にデータは存在するでしょうし、ユーザが持っているデータやオープンデータであればExcel形式のデータも多数存在します。このように必要なデータは様々な形式で持っていますので、これらの形式を統一しなければデータは使えません。
そのためデータ準備とはバラバラな状態のデータを集めて形式を統一し、利用・分析しやすい形にまとめるまでの工程を指します。
データ準備はなぜ必要?
データ準備は、以下の点からデータ分析において非常に重要な役割を担っています。
データ利用の需要拡大
現在、企業活動のあらゆる場面でデータの活用が重要視されているため、適切なデータ準備を行った使いやすいデータのニーズが多くの企業において高まっています。
企業がスピード感を持って意思決定を行うためにはスピーディーに情報を収集し、整理して分析に適した形に整える必要があります。
もしデータ準備をしないまま分析を行えば、分析結果は信用できかねるものになる可能性があるので注意が必要です。
企業が扱う情報量の急増
技術の発展とともに、SNSやIoTなど、情報は様々な場所に様々な形で存在するようになりました。
そのため、様々な場所に遍在する情報を加工し、一つのデータにまとめ上げるデータ準備の手法が非常に大切になっています。
データ準備とETLの違い
ここからはデータ準備とよく似た概念であるETLについて解説し、それぞれの違いについて整理していきます。
ETLとは
ETLとは「Extract(抽出)・Transform(変換)・Load(格納)」の頭文字をとった略称であり、データ統合における各プロセスのことを表します。
つまりETLとは保管場所も保管形式もバラバラな情報を集め、加工処理したうえで蓄積していく手法を指します。
特にBI(ビジネスインテリジェンス)の分析のためにデータウェアハウスを構築する際に必要なプロセスとして認知されています。
現在では様々なETLツールが存在し、より直感的な操作でETLを行うことが可能となっています。
ETLツールには企業向けのものだけでなく、フリーで使えるオープンソースのものもあります。
データ準備とETLの違いを知る3つのポイント
データ準備とETLの違いを整理するためには、以下の3点に着目すると良いでしょう。
- ターゲットとするユーザーの違い
- 活用目的の違い
- データソースの構造の違い
ここでは、それぞれについてまとめていきます。
1.ターゲットとするユーザーの違い
データ準備とETLの違いとしてまず挙げられるのが、ターゲットとするユーザーの違いです。
<ETLのターゲットユーザー>
ETLはシステム開発者など、一定以上のITスキルを持つ方を主な対象としています。
そのため、ETLには様々なツールが存在するとは言っても、利用するにはSQL言語の知識やデータベースの知識など一定以上のITスキルが必要です。
<データ準備のターゲットユーザー>
データ準備はデータアナリストやビジネスアナリスト、データサイエンティストなどを主な対象ユーザーとしています。
そのためデータ準備のツールには直感的に使用できるものが多く、ITスキルがあまりないユーザーでもデータの加工や品質改善が可能です。
2.活用目的の違い
データ準備とETLは、その活用目的においても違いがあります。
<ETLの活用目的>
ETLは、DWH(データウェアハウス)を構築するためにプログラミングを用いて組織内のシステムに遍在する情報を集める手法です。
そのためデータ内のスペルミスや表記揺れ、ノイズなどはユーザーが自分で取り除いていく必要があります。
<データ準備の活用目的>
データ準備では、担当者ベースでデータの加工・処理を行うことを想定しているため、ツールとの対話形式で作業を進めることが可能です。
スペルミスやノイズ等の適切なデータ加工をユーザーが判断できなかったとしても、データ準備ツールのアルゴリズムが最適なやり方を提示してくれるのです。
3.データソースの構造の違い
データ準備とETLは、データソースの構造も異なっています。
<ETLのデータソースの構造>
ETLはExcelの表やCSVファイル、リレーショナルデータベースやCRMなど、構造化されたファイルを主なデータソースとして想定しています。
<データ準備のデータソースの構造>
データ準備は構造化されたファイルに加えてJSONやXMLなど複雑な形式のデータのフラット化にも対応しています。
データ準備の活用事例
さて、データを集めて形式を統一しました。これで、データは使えるのかと言うと、答えは「否」、ここからがデータを使える状態にするための「データ整備」という工程に入ります。
この「データ整備」がとても大変で時間のかかる工程になります。ここからは、データ整備の活用事例について4つ紹介していきます。
顧客データなどの個人の情報を利用するとき
顧客データなど個人の情報を利用することを想定してみましょう。顧客データにある「名前」について、業務システムAでは「氏名」という項目があり、業務システムBでは「姓」と「名」という項目があったとします。これら2つのデータを組み合わせるためには業務システムAの「氏名」という項目を「姓」と「名」に分解しなければデータを組み合わせることはできません。
たとえばVOC分析(アンケート等による顧客ニーズの分析)などを行う際には、データ準備における表記揺れの修正やクレンジングなどが必要となるでしょう。
データの持ち方が異なるとき
同じように、住所、性別、生年月日などデータを持っているが持ち方が異なる場合があります。
たとえば、住所であれば、都道府県から1項目で管理している場合と都道府県と市区町村以降の2項目で管理している場合、性別では「男」「女」の場合と「1」「2」というコードで管理している場合、生年月日では、西暦と和暦など、同じ情報を持っていてもその持ち方はシステムによって異なることはよくあります。データを使えるようにするためには、データの持ち方を統一しなければなりません。
これまでの企業活動において、システムは部門ごとに最適な形で構築されてきました。
そのため各システムはセパレートされており、同じ情報でもデータの形式が異なっていることがあります。
センサデータを扱うとき
最近ではIoTの発展とともにセンサデータを扱うことも多くあります。センサは一定時間ごとにデータを取得しますが、その時の環境や誤作動によりデータを取得でいない場合や誤った値を検知する場合があります。そのまま、AIの学習データにしたらどうなるのか。当然、精度の低い結果しか得られません。
たとえば、「明らかにおかしなデータ(閾値を超えたデータ)は削除する」、「前後のデータの平均値をセットする」などデータを編集する必要があります。
複雑な構造を持っているIoTデバイスのデータをプログラムレスで直感的に可視化することができれば、BIへも大いに活用することが期待できるでしょう。
世界中のデータを集めるとき
また、昨今、事業のグローバル化が進み、世界中からデータを集めて活用することもあるでしょう。データに含まれるタイムスタンプは現地時間になっています。集めたデータの日付時刻を全て日本時間に統一する作業も必要になるでしょう。
世界中で生成されるデータの量は急激に増えてきており、それらを早期に収集・加工し分析に最適な状態にまとめ上げるデータ準備の手法が大いに役立つでしょう。
このようにデータを使える状態にするためには様々な準備(データ整備)が必要であり、まずは使いたいデータの中身を確認する(知る)ことから始める必要があります。
一般的に、データ分析やAIの活用に要する全体時間の約6~8割がこのデータ準備だと言われており、この時間をいかに削減し、いかに早くデータを使えるようにするかが課題となります。
では、データ整備を誰がどのようにするのか。
データ件数が数千件程度であれば誰もが使えるExcelでも可能ですが、数万件や数十万件のデータになれば、Excelファイルを開くだけでも数分~十数分(パソコンのスペックによりますが)は必要になり、作業効率が捗りません。100万件を超えるようなデータ量になれば、ITに精通した専門家に頼まざるを得ないことになります。
データ準備に役立つおすすめのツール「データ整備サービス」
ここでは、日本ソフト開発株式会社が提供する「データ整備サービス」の概要について解説していきます。
データ整備サービスの3つの特徴
データ整備サービスには、3つの大きな特徴があります。
①Cost:明確な見積
テーブル数、データ件数に対応した料金体系で、ご利用いただけます。
②Speed:最短1週間
短期間で、データ確認、データ整備を実施いたします。
③Usability:わかりやすく
データ確認とデータ整備を繰り返すことで、データを情報にします。
データ整備サービスの詳細
データ整備サービスでは「データ確認」と「データ整備」を繰り返し、データ活用の課題解決をお手伝いいたします。
データ整備のStep1 データ確認
CSVファイルとテーブル編集仕様をお預かりし、データ確認レポートを短期間(最短2日)で作成いたします。
テーブル編集仕様の作成をお客様で行うことが難しい場合は、弊社にて作成サポートも行っていますのでご安心ください。
データ整備のStep2 データ整備
いただいたテーブル編集仕様を元に、お預かりしているCSVファイルを整備・加工して、短期間(最短4日)でCSVファイルをお返しいたします。
データ整備のStep3 データ再確認
データ整備が終わった後のCSVファイルがテーブル編集仕様に沿ったデータであることを、データ確認レポートによって確認いたします。
もしER図をいただくことができれば、テーブル間整合性レポートの作成も合わせていたします。
データ整備サービスで企業のお悩み解決
データ整備サービスをご利用になることで、企業が持つ以下のようなお悩みを解決することができます。
デジタルトランスフォーメーション(DX)関連のお悩み
「デジタルトランスフォーメーションを進めるために今あるデータの内容を確認しているが、データ量、データ数が多くて、手に負えない」
AI関連のお悩み
「AI用の機械学習(学習データ、適用データ、テストデータ)データ整備を複数人で作成しているが、品質にばらつきがあり、AIで思うような結果が得られない」
データ移行時のお悩み
「ERPシステムをクラウドサービスに移行したいが、データ移行費が高い」
「汎用機からオープン系へのマイグレーションに伴うデータ移行の工数を削減したい」