データレイク
本記事では、データレイクの意味、データウェアハウスやデータマートとの違い、データレイクで気を付けることについて説明します。
データ量が多くなった現代において、データレイクについて知っておくことは非常に重要なことです。データレイクについて知ることで、効率よくデータを活用できるようになります。
目次
データレイク(Data Lake)とは
デジタル改革が本格化する中、企業が経営の意思決定を行うために必要なデータは、基幹システムや業務システムの持つデータに加え、IoT、自社サイトやEC、SNSのログ、オープンデータ、そして今後本格化が見込まれる企業間取引で得られる社外データなど等々多種多様になり、そのデータ量も爆発的に増えています。
このような様々なデータを発生した状態で溜めておき、一部専門家だけでなく、営業や製造といった部門メンバーなど誰もがデータ活用できる基盤をデータレイクと言います。
少し乱暴な言い方をすると、「活用できそうなデータは何でも溜めておいて、使いたい人が使いたい時に自由に使おう」という考え方になります。
データレイクとデータウェアハウスとデータマートは何が違うのか
本項目では、データレイクとデータウェアハウスとデータマートの違いについてご紹介します。
データウェアハウスとは
データウェアハウスでは、基幹システムや業務システムで扱うデータ(構造化データ)をどのように活用するかを予め検討しておき、活用し易い形に変換した上でデータを保存します。
対象となるデータはあくまで構造化データに限定されます。
データマートとは
データマートとは、システムに記録または蓄積されたデータから、目的などに応じて必要なものだけを抽出かつ集計し、利用しやすいように格納したデータベースのことです。
データマートとデータウェアハウスの違いは、データの大きさにあります。データウェアハウスはデータマートよりもデータ量が多いため、データマートよりも多くの情報をまとめれます。
対して、データマートはデータ量が小さい分、早くかつ安く構築できるメリットがあります。しかし、近年では顧客のニーズが広くなり、データマートではすべてのニーズを網羅することが難しくなってきています。
こうした背景から、現在ではデータマートよりもデータウェアハウスを使うことが勧められています。
データレイクとは
データレイクでは、データが発生した状態をそのままの形で保存します。そして、対象となるデータは構造化データだけではなく、画像・動画・音声などの非構造化データも対象としています。
IoTの発展とともに、センサデータなど収集できるデータは爆発的に増加しています。
もし、このデータをデータウェアハウスに保存しようとすると、データを整備するために時間が掛かりますし、大量のデータを保存する領域を確保するためには高額な費用もかかります。
さらに、データを活用できるようになるまでの時間もかかるため、データの鮮度が落ちてしまいデータの価値が低くなります。
対して、データレイクでは、瞬時に安価なストレージにデータを格納でき、鮮度の良い(価値ある)データを活用できます。
データレイクの落とし穴
先ほど「活用できそうなデータは何でも溜めておいて、使いたい人が使いたい時に自由に使おう」と言いましたが、ここに大きな落とし穴が2つ隠されています。
1つ目は、「活用できそうなデータは何でも溜めておく」です。
間違いではないのですが、闇雲にデータを溜めていっても、この湖(データレイク)には、「どんなデータが入っているのか?」「どのデータを使えば良いのか?」「自分の欲しいデータをどうやって探せばよいのか?」など、これらがわからなければ、使いたくても使えない状態になります。
2つ目は、「使いたい人が自由に使おう」です。
1つ目の落とし穴をクリアして使いたいデータが見つかっても、そこにあるデータは発生した(生の)状態です。専門知識が無ければデータを見ても理解することができず、データを使うことはできません。
この2つの落とし穴を解決する策を講じておかなければ、せっかく準備したデータレイクがデータスワンプ(Data Swamp:データの沼地)になってしまいます。
データレイクに必要なこと
まずは、データレイクにはどのようなデータがあり、必要なデータを容易に見つけられる仕組みが必要になります。
これには、データを入れる時にそのデータのメタデータ(データの出所、所有者、最終更新日、種別、粒度、形式など)を管理したデータカタログを準備することが必要になります。
データカタログを準備することで、利用者は自分使いたいデータを素早く探し出すことができます。次に準備しておかなければならないのが、利用者がデータを使える状態にするための仕組みになります。
これらを準備することでデータ活用が可能になりますが、もう一つ忘れてはならないことがあります。それは、データガバナンスです。
- データレイクには、様々なデータが存在します。誰でも使ってよいデータなのか?
- 機密情報や個人情報が含まれているのか?
- データの漏洩の心配はないのか?
といったデータセキュリティを保護の仕組みや、「本当に信頼できるデータであるのか?」といった観点ではデータレイクにあるデータを定期的に掃除することも必要になります。
データレイクの最後に
多種多様なデータが爆発的に増加しています。これらのデータを有効活用するにはデータレイクが有効な手段になりますが、データスワンプにならないように管理を含め適切な運用が重要になります。
弊社が提供している「データ整備サービス」では、データの確認、整備をお手伝いしております。データレイクにある生のデータを活用頂けるデータへと整備させて頂きます。
関連記事:データレイク・データドリブンに関する活用シーンはこちら
データレイクに役立つツール「データ整備サービス」
ここでは、日本ソフト開発株式会社が提供する「データ整備サービス」の概要について解説していきます。
データ整備サービスの3つの特徴
データ整備サービスには、3つの大きな特徴があります。
①Cost:明確な見積
テーブル数、データ件数に対応した料金体系で、ご利用いただけます。
②Speed:最短1週間
短期間で、データ確認、データ整備を実施いたします。
③Usability:わかりやすく
データ確認とデータ整備を繰り返すことで、データを情報にします。
データ整備サービスの詳細
データ整備サービスでは「データ確認」と「データ整備」を繰り返し、データ活用の課題解決をお手伝いいたします。
データ整備のStep1 データ確認
CSVファイルとテーブル編集仕様をお預かりし、データ確認レポートを短期間(最短2日)で作成いたします。
テーブル編集仕様の作成をお客様で行うことが難しい場合は、弊社にて作成サポートも行っていますのでご安心ください。
データ整備のStep2 データ整備
いただいたテーブル編集仕様を元に、お預かりしているCSVファイルを整備・加工して、短期間(最短4日)でCSVファイルをお返しいたします。
データ整備のStep3 データ再確認
データ整備が終わった後のCSVファイルがテーブル編集仕様に沿ったデータであることを、データ確認レポートによって確認いたします。
もしER図をいただくことができれば、テーブル間整合性レポートの作成も合わせていたします。
データ整備サービスで企業のお悩み解決
データ整備サービスをご利用になることで、企業が持つ以下のようなお悩みを解決することができます。
デジタルトランスフォーメーション(DX)関連のお悩み
「デジタルトランスフォーメーションを進めるために今あるデータの内容を確認しているが、データ量、データ数が多くて、手に負えない」
AI関連のお悩み
「AI用の機械学習(学習データ、適用データ、テストデータ)データ整備を複数人で作成しているが、品質にばらつきがあり、AIで思うような結果が得られない」
データ移行時のお悩み
「ERPシステムをクラウドサービスに移行したいが、データ移行費が高い」
「汎用機からオープン系へのマイグレーションに伴うデータ移行の工数を削減したい」
関連動画:データレイク・データドリブン