データクレンジング
企業は日々意思決定を繰り返しており、正しい意思決定のためには経営層の決断力だけでなく、良質なデータの保有が不可欠です。
しかし収集したままのデータには、様々な理由からそのまま使用することができない「汚れ」が含まれています。
適切な意思決定を企業が行うためには、「汚れた状態のデータ」を「キレイなデータ」にすることが大切なのです。
データの汚れを取るために実施するデータ分析前の工程のことを「データクレンジング」と呼び、ビジネスの成功にはデータクレンジングの適切な実施が不可欠だと言えます。
そのためここでは、データクレンジングの概要やその目的、具体例やデータクレンジングの具体的な進め方などについて解説をしていきます。
データクレンジングを企業で取り組むべき理由
ここではまずデータクレンジングについて解説し、データクレンジングに企業で取り組むべき理由について解説していきます。
データクレンジングとは
データクレンジングは、データの汚れを落としデータの品質を向上させることです。
その目的は、データ分析やAIなどデータを有効活用し、企業経営の適切な意思決定やサービス向上へとつなげることにあります。
データクレンジングを行わずに、データ分析を行っても正しい分析結果を得ることができず、誤った意思決定へとつながりかねません。データクレンジングは、データを活用する上で避けては通れない工程になります。
データクレンジングされていない生のデータでは、検索をかけた際に上手く表示されなかったり、同じ項目が重複して表示されたりと不都合が生じます。
例えば、同じ会社名の表記にも「有限会社」と「(有)」や「株式会社」と「(株)」などと異なる表現方法が混在している可能性があります。
私たち人間が見れば「両者は同じ意味だ」と判断できますが、コンピューターで検索等をかけた場合には、「両者は別の会社だ」と判断される可能性があるのです。
上記のような「汚れ」をそのままにしてデータ分析を行っては、企業の対応品質に悪影響を及ぼしかねません。
場合によっては顧客からの信頼を失い、社会的な信用が低下することにもつながる可能性があるでしょう。
そのためデータクレンジングを行い、データ分析の精度向上に役立てるのです。
また、日本では場合によって「データクリーニング(data cleaning)」と表記されることがありますが、データクレンジングと意味は同じだと考えて差し支えないでしょう。
データの汚れとは
データの汚れとは、「本来はどうあるべきか」を明確にした上で、そのルールから外れているデータが汚れているデータとなります。
この汚れているデータをルールに沿った形に整備することをデータクレンジングと言います。
ただし一口に「汚れ」と言っても、内容には様々な種類があります。
例えばデータの欠損やノイズ、表記揺れ、重複などは、データクレンジングで取り除くべき「汚れ」の代表的なものだと言えるでしょう。
欠損とは記録されているはずのデータが、何らかの理由により記録されないことを言います。
例)アンケートの記入漏れ
ノイズとはデータを取り扱う理由に照らし合わせた際に、必要のない余計な要素や部分のことを言います。
例)SNSで口コミ情報を集めている時の広告めいた投稿
表記揺れとは同じことを意味しているが、表記の仕方だけが異なっていることを言います。
例)「1,000円」と「¥1,000」と「1000円」・西暦と和暦など
また、明らかに不足しているデータを補うことも、データクレンジングの一つです。
ただ、このルールが定められておらず、データを活用しようとした時に慌ててルールを整備することが多くあるようです。
システムを構築する時には、それなりのルールが定められていますが、それはシステムを運用する上での最低限のルールです。蓄積されたデータを活用する場合には、蓄積されているデータを全て確認し、データを活用できる状態にクレンジングを行う必要があります。
特に他のシステムのデータと統合して活用する場合には、統合する情報の内容を統一したものにしなければなりません。
たとえば、名前を管理する場合、「氏名」1項目で管理されているデータと「姓」「名」2項目で管理されているデータがあれば、「氏名」を「姓」「名」に分割する必要があります。(「姓」「名」を「氏名」に結合する方法もありますが、その後のデータ活用を考えると「姓」「名」2項目に分割すべきです。)
データクレンジングを行う際、実施ルールが毎回異なれば作業効率が悪くなりデータの精度も落ちる可能性があります。
そのため、データクレンジングには一定のルールを定めることが大切でしょう。
データクレンジングを活用する目的
データクレンジングは、データの汚れを落としデータの品質を向上させることです。
その目的は、データ分析やAIなどデータを有効活用し、企業経営の適切な意思決定やサービス向上へと繋げることにあります。
データクレンジングを行わずに、データ分析を行っても正しい分析結果を得ることができず、誤った意思決定へとつながりかねません。データクレンジングは、データを活用する上で避けては通れない工程になります。
データクレンジングの実施には以下のような目的があります。
業務効率化・労働生産性の向上
データクレンジングにより収集したデータを最大限利用できる状態にすれば、効果的な営業戦略・マーケティング戦略が打てるようになります。企業が活動する中では大量かつ多様な情報を日々取り扱っており、正しくないデータが蓄積してしまうと、業務効率の悪化にもつながりかねません。
データクレンジングを適切に実施することでデータを都度見直す必要性が減るため、重複する作業が減り、業務効率化にもつながるでしょう。
コスト削減
データの重複や誤りをそのままにして運用すると、無駄な作業が増え、結果としてコストが余計にかかってしまいます。
既存顧客へのアプローチの際に万が一顧客データに誤りがあれば、同じ顧客に重複してアプローチしてしまったり、対応漏れがあったりする可能性があるのです。
そればかりか手紙を誤った住所に出すなどしてしまえば、個人情報の漏洩などにより特別な顧客対応を強いられる可能性もあるでしょう。こうした対応にかかる人件費や時間を考えると、データクレンジングは非常に重要な工程であると言えます。
データ分析の精度向上
データクレンジングを実施するにあたって非常に大きな目的となるのが、データ分析の精度向上です。
データ分析を経営戦略・マーケティング戦略に活かすのであれば、データの精度を保つことが非常に大切となります。
企業が正しい意思決定をするためには、データクレンジングの適切な実施が不可欠だと言えるでしょう。
収集したばかりの生のデータには、基本的に何らかの汚れがあるものです。
また、新たな情報が入ったにも関わらずデータの更新を怠ってしまえば、結果として誤ったデータとなってしまうこともあるでしょう。
こうした「汚れたデータ」を綺麗にし、企業品質・顧客対応品質の向上などにつなげていくのが、データクレンジングの目的なのです。
分析前に行うデータクレンジングの具体例
ここでは、データの分析前に行うデータクレンジングの具体例を、代表的な事例4つに厳選してご紹介していきます。
1. 名前の見直し…「氏名」を「姓」と「名」に分割する
氏名:「日本 太郎」 → 姓:「日本」 名:「太郎」
(※氏名に空白が含まれない場合や複数含まれる場合は正しく分割できないため、対象データの修正が必要となります。)
氏名:「日本太郎」 → 姓:「日本太郎」 名:「」
氏名:「日 本 太 郎」 → 姓:「日」 名:「本 太 郎」
2. 半角カタカナの見直し…拗音(ようおん)、促音(そくおん)を変換する
「カイシャ」 → 「カイシヤ」
(※拗音とは、「キャ」など小さな「ャ」「ュ」「ョ」を含む2文字で表される音、促音とは「ラッキー」など小さな「ッ」で表されている音のことです。メインフレームなどでは、半角カタカナの小さな文字は管理することはできませんでした。)
3. 法人名称(法人格)の見直し…「法人名」に含まれる法人格の表記を統一する
法人名:「日本ソフト開発(株)」 → 「日本ソフト開発株式会社」 など
(※法人格の入力方法が異なると同じ法人であるにもかかわらず別法人と識別されるため、法人格を統一する必要があります。)
4. 住所の統一…「住所」を「都道府県」、「市区町村以降」に分割する
住所:「滋賀県米原市米原西23番地」→ 都道府県:「滋賀県」 市区町村以降:「米原市米原西23番地」
※上記例は、住所を基に都道府県ごとのデータ分析を行いたい場合の事例です。
データクレンジングの進め方
ここからは、データクレンジングの進め方を、流れに沿って具体的に解説していきます。
1. データの確認(ルールから外れたデータの抽出)
以下の内容に留意しつつデータを確認します。
完全性 | データに欠損はないか |
適合性 | データに表記の揺れはないか |
一貫性 | データに不整合はないか |
精度 | データに誤りやノイズはないか |
重複度 | データに重複はないか |
2.テーブル編集仕様の作成
データ確認結果を基に各項目の編集方法(ルールに則したデータに変換する方法)を作成します
3. データや整備及び結果確認
テーブル編集仕様に従いデータ整備(クレンジング)を行い、結果を確認する
弊社では、「データ整備サービス」を展開しており、お客様のデータクレンジングをお手伝いします。詳しくはホームページをご覧ください。
データクレンジングに役立つツール「データ整備サービス」
ここでは、日本ソフト開発株式会社が提供する「データ整備サービス」の概要について解説していきます。
データ整備サービスの3つの特徴
データ整備サービスには、3つの大きな特徴があります。
①Cost:明確な見積
テーブル数、データ件数に対応した料金体系で、ご利用いただけます。
②Speed:最短1週間
短期間で、データ確認、データ整備を実施いたします。
③Usability:わかりやすく
データ確認とデータ整備を繰り返すことで、データを情報にします。
データ整備サービスの詳細
データ整備サービスでは「データ確認」と「データ整備」を繰り返し、データ活用の課題解決をお手伝いいたします。
データ整備のStep1 データ確認
CSVファイルとテーブル編集仕様をお預かりし、データ確認レポートを短期間(最短2日)で作成いたします。
テーブル編集仕様の作成をお客様で行うことが難しい場合は、弊社にて作成サポートも行っていますのでご安心ください。
データ整備のStep2 データ整備
いただいたテーブル編集仕様を元に、お預かりしているCSVファイルを整備・加工して、短期間(最短4日)でCSVファイルをお返しいたします。
データ整備のStep3 データ再確認
データ整備が終わった後のCSVファイルがテーブル編集仕様に沿ったデータであることを、データ確認レポートによって確認いたします。
もしER図をいただくことができれば、テーブル間整合性レポートの作成も合わせていたします。
データ整備サービスで企業のお悩み解決
データ整備サービスをご利用になることで、企業が持つ以下のようなお悩みを解決することができます。
デジタルトランスフォーメーション(DX)関連のお悩み
「デジタルトランスフォーメーションを進めるために今あるデータの内容を確認しているが、データ量、データ数が多くて、手に負えない」
AI関連のお悩み
「AI用の機械学習(学習データ、適用データ、テストデータ)データ整備を複数人で作成しているが、品質にばらつきがあり、AIで思うような結果が得られない」
データ移行時のお悩み
「ERPシステムをクラウドサービスに移行したいが、データ移行費が高い」
「汎用機からオープン系へのマイグレーションに伴うデータ移行の工数を削減したい」