データ標準化

データ標準化

データ標準化は、企業内、企業外にあるデータおよび情報を部門(総務部門、人事部門、企画部門、システム部門、営業部門、技術部門、製造部門、業務部門)の枠を外して、容易に活用できる情報にするデータ連携、データ統合する為に、「文字、コード、語彙」を体系化(統一)することです。

データ標準化に必要な人材

データ標準化に必要な人材

データ標準化に必要な人材は、データをどのように戦略的に活用するかを判断できる経営トップ、「CEO(Chief Executive Officer:最高経営責任者)、CTO(Chief Technology Officer:最高技術責任者)」と、データ標準仕様を作成する技術者、「データアドミニストレータ、データベースアドミニストレータ」です。

データアドミニストレータ:業務システム構築時に、企業内のデータから概念データモデル、論理データモデルを作成する

データベースアドミニストレータ:業務システム構築時に、論理データモデルから物理データモデルを作成する

関連記事:データアドミニストレータに関する記事はこちら

文字コード

  • ASCⅡコード:ANSI(American National Standards Institute:米国国家規格協会)、1バイト
  • EBCDICコード:米国IBM社、1バイト
  • JISコード:JIS(Japanese Industrial Standards:日本産業企画)
    • JISローマ字(JIS X 0201):ASCⅡコード、1バイト
    • JISカナ(JIS X 0201):半角カナ、1バイト
    • JIS漢字(JIS X 0208):JIS非漢字・JIS第一・第二水準漢字、2バイト
    • JIS補助漢字(JIS X 0212-1990、0213:2000、0213:2004、0213:2012):JIS補助漢字・第三・第四水準漢字、2バイト
  • シフトJISコード:米国マイクロソフト社、2バイト
  • EUC-JPコード:(Extended UNIX Code packed format for JaPanese)米国AT&T社、2バイト
  • Unicodeコード:ISO(International Organization for Standardization:国際標準化機構)
    • UTF-8( Unicode Transformation Format-8bit):1~4バイトの可変長
    • UTF-16(Unicode Transformation Format-16bit):1~4バイトの可変長
    • UTF-32(Unicode Transformation Format-32bit):4バイト
    • UCS-2(Universal multi-octet Character Set 2):JIS X 0201の範囲では、UTF-16と同じ
    • UCS-4(Universal multi-octet Character Set 4):JIS X 0201の範囲では、UTF-16の文字コード表の先頭に””0000″”を付加したものと同じ

データ整備サービスの詳細

データ整備、レポート

データ整備サービスでは「データ確認」と「データ整備」を繰り返し、データ活用の課題解決をお手伝いいたします。

Step1 データ確認(データ確認レポート):データ項目毎の「最小値、最大値、最小件数、最大件数、最小桁数、最大桁数」をレポートで確認

CSVファイルとテーブル仕様をお預かりし、データ確認レポートを短期間(最短2日)で作成いたします。
テーブル編集仕様の作成をお客様で行うことが難しい場合は、弊社にて作成サポートも行っていますのでご安心ください。

Step2 データ整備:テーブル編集仕様をもとに、新たなデータを作成

いただいたテーブル編集仕様を元に、お預かりしているCSVファイルを整備・加工して、短期間(最短4日)でCSVファイルをお返しいたします。

Step3 データ再確認(データ確認レポート):新たなデータ項目毎の「最小値、最大値、最小件数、最大件数、最小桁数、最大桁数」をレポートで確認

データ整備が終わった後のCSVファイルがテーブル編集仕様に沿ったデータであることを、データ確認レポートによって確認いたします。
もしER図をいただくことができれば、テーブル間整合性レポートの作成も合わせていたします。

関連記事:データ整備に関する記事はこちら

前の記事

ビッグデータ