オープンデータ
国や地方公共団体がインターネットを通じて公開しているオープンデータを分析しようとしても、月ごとに別のファイルを手作業でダウンロードしてから一つのデータに結合したり、データ間で統一されていない表記を修正したり、実際に作業を始めると想像以上の手間がかかることがわかりました。簡単にできる方法がないか探すなかで、当社のデータ整備サービスが役立ちました。
顧客
- 業種:研究機関
- 部署:
- 利用シーン:オープンデータ活用
背景
国がインターネットを通じて提供しているオープンデータをテキストマイニングを使用した分析を行おうとしていましたが、Webサイトから月単位で提供されているExcelデータを100ファイル以上ダウンロードして一つのファイルに結合した後、メタデータの付与など分析に適したデータに加工する必要がありました、手作業では非効率なため、今後様々な分析を行うことを考慮し作業を簡単にできるツールやサービスがないか調べていたところデータ整備サービスを見つけ、テーブル編集仕様作成サポートを利用して相談することで分析用データの前処理を実現できました。
課題と効果
-
Webサイトから手作業でデータダウンロードを行うのが大変。
→テーブル編集仕様作成サポートで相談することで、ファイルダウンロードや自動化スクリプト作成を支援してもらえました。
-
オープンデータを取得しても、分析や機械学習を行うためのデータ加工処理に時間がかかっている。
→データ整備サービスを利用してデータの前処理を委託することで、本来の業務(データ分析)に集中することができました。
利用イメージ
厚生労働省が公開しているオープンデータの取得と、分析のためのデータ前処理をデータ整備サービスとテーブル編集仕様作成サポートを利用して行いました。
分析対象のオープンデータは、API(アプリケーション・プログラミング・インターフェース)が提供されておらず、WebサイトからExcelデータをダウンロードする形式で過去20年分以上公開されています。年別データは20以上、月別データであれば100以上のファイルに分かれており、今後も様々なオープンデータを扱って分析処理することを考えると、手軽にデータを取得して整備するツールやサービスを必要としていました。
データ整備サービスのオプションのテーブル編集仕様作成サポートを利用することで、Webサイトからのデータ取得(ダウンロード)についてもサポートがあり、データ内容を確認したうえで、分析ツールで扱うためにどのように修正すればよいかを相談しながら作業を進め、欲しいデータを短期間で得ることができました。
