構造化データ

構造化データ

構造化データは、業務システムで管理されているDB(2次元のテーブル型式)のことです。Excelで表すと、列の項目数は固定で、規則性のあるデータです。

構造化データとは?

構造化データとは

構造化データは、データモデリングの「物理データモデル」されたデータで、システム部門で管理されたデータです。
物理データモデルは、データベース創成時の定義と同じ記述で、データ群総称名と関連させる項目名を明確にしデータ構造図に表すことです。
非構造化データは、IoT(Internet of Things)、ビッグデータ、DX(デジタルトランスフォーメーション)で使われるが、管理しづらいデータです。

Excelで構造化データを作成すると

データ

「列と行:2次元」で、「列に意味を持たす:構造化」データで、「1行目:データの項目名」「2行目以降:項目毎データ」です。
構造化データは、どこにどんなデータがあるのかは、列によって決まっているので、データ分析(検索、比較、集計)には適したデータ構造です。

構造化データ:列と行で標準化、整合性、正規化されたデータ

  • CSV (Character Separated Values)ファイル:「カンマ区切り:CSV(Comma Separated Values)、「タブ区切りTSV(Tab Separated Values)」、「半角スペース区切り:SSV(Space Separated Values)」
  • Excelファイル
  • テキストファイル:CSVファイルは、テキストファイルの中に含まれる

非構造化データ(規則性がある)

  • XML(eXtensible Markup Language)ファイル:種類の異なるソフトウェア間でデータを交換するための形式
  • JSON(JavaScript Object Notation)ファイル:情報に名前(キー)をつけ、階層構造で記述する
  • Parquetファイル:列指向のフォーマットで、列単位でデータを取り出すのに向いている
  • Avroファイル:行指向のフォーマット

非構造化データ(規則性がない):企業が保有するデータの8割

  • 電子メール
  • Officeドキュメント:Word、Excel、PowerPoint
  • 画像、動画、音声データ
  • デザインデータ:Adobe Illustrator、Adobe Photoshop、Adobe InDesign、PDF(Portable Document Format)、EPS(Encapsulated Post Script)、JPEG( Joint Photographic Experts Group)、DXF(Drawing Exchange Format)、GIF(Graphics Interchange Format)、PNG(Portable Network Graphics)

データ整備サービスの詳細

データ整備、レポート

データ整備サービスでは「データ確認」と「データ整備」を繰り返し、データ活用の課題解決をお手伝いいたします。

Step1 データ確認(データ確認レポート):データ項目毎の「最小値、最大値、最小件数、最大件数、最小桁数、最大桁数」をレポートで確認

CSVファイルとテーブル仕様をお預かりし、データ確認レポートを短期間(最短2日)で作成いたします。
テーブル編集仕様の作成をお客様で行うことが難しい場合は、弊社にて作成サポートも行っていますのでご安心ください。

Step2 データ整備:テーブル編集仕様をもとに、新たなデータを作成

いただいたテーブル編集仕様を元に、お預かりしているCSVファイルを整備・加工して、短期間(最短4日)でCSVファイルをお返しいたします。

Step3 データ再確認(データ確認レポート):新たなデータ項目毎の「最小値、最大値、最小件数、最大件数、最小桁数、最大桁数」をレポートで確認

データ整備が終わった後のCSVファイルがテーブル編集仕様に沿ったデータであることを、データ確認レポートによって確認いたします。
もしER図をいただくことができれば、テーブル間整合性レポートの作成も合わせていたします。

前の記事

マスタ作成

次の記事

テキストデータ処理