教師データ準備
AI活用(機械学習)に教師データの準備は欠かせないものですが、その現状や重要性について説明します。
教師データ準備とは
AI(機械学習)に必要なデータを教師データ(学習データ)と言います。このデータを準備するのが教師データ準備であり、機械学習の最初の作業となります。教師データは、「入力」と「正解(答え)」をペアにしたデータです。たとえば、画像を入力し、犬や猫といった、あらかじめ定められたいくつかのクラスに分類するためには、1枚1枚の画像に正解ラベルを付与したデータが必要です。
教師データの量は必要とする精度や利用するモデルなどによって異なりますが、単純な画像の分類の場合、クラス(答え)ごとに1,000~10,000程度用意します。従来の機械学習では、データの量を増やしても精度が頭打ちになってしまいましたが、ディープラーニングではデータ量を増やしただけ性能が向上することが知られています。
そのため、性能向上のためにはデータ量は非常に大切な要件となります。しかしデータ量の増大はモデルの学習時間の増加に直結するため、ビシネス利用の場合は、性能と工数のバランスを検討することも重要です。
教師データの重要性
AIの成果で非常に有名になったのは2012年の「Googleの猫」です。大量の猫の画像を学習データとしてディープラーニングに読み込ませたものですが、画像の枚数は約1,000万枚だったと言われています。その頃、AIは今後飛躍的に進化する、と言われてきましたが、当時考えられていたほどのスピードではAIの開発は進んでいないのが現状です。その理由の一つが教師データの準備の困難さと、教師データの重要性に対する認識不足です。
教師データには「入力値」と「答え」をペアにしていかなければなりません。同時に品質も求められます。AIに関する人材やツールは一定の進展を見せていますが、教師データの準備が重要であることはあまり認識されていません。教師データの準備ができていない(精度が低い)ことが原因にもかかわらず、「AIは使えない」と判断されていることもあるのではないでしょうか。この教師データの重要性が、人材及びツールの充実とともにさらに認識されるようになるとAIビジネスが飛躍的に進むと考えられます。
教師データは単純には作れない
AIを使って、ある飲食店の来客数予測をするとします。
「まず、過去の来客数の実績データを教師データとして、来客数予測モデルを構築したところ、ある期間だけ、実測値と予測値に大きな差が生じた。その期間について調査をしたところ、特別なキャンペーンを実施していたことが判明した。そこで、教師データにキャンペーンに関するデータを加え、再度来客数予測モデルを構築し精度を上げる。」
というように、AIモデルを構築するまでには何度も教師データを整備していく必要があります。
以前は、AIモデル作成に時間が掛かっていましたが、処理性能が向上したことにより、今では教師データの準備が全工程の8割を占めています。教師データ準備には、ITスキルの低い方はExcelを利用されることが多いのですが、データ件数が多いと中々効率化が進まない状況です。
データ整備サービス
弊社が提供している「データ整備サービス」は、お客様のご指定の編集仕様に基づきデータ整備を行うサービスです。教師データ準備にもご利用いただけます。詳しくはホームページをご覧ください。