サンプリングデータ

ビッグデータ（全量データ）からサンプリングデータを抽出することで、簡単に全体を推測することができますが、サンプリング方法についての課題や失敗事例を紹介します。

1 サンプリングデータとは
2 サンプリングデータに求められるもの
3 ビッグデータかサンプリングデータか

サンプリングデータとは

サンプリングデータとは、対象となる全体から、部分的に抽出したデータのことです。サンプリングで得られたデータは、その全体となる対象と特徴を同じくするものであると見なされるため、大規模な調査などが必要な際に、より手軽に、全体の結果を予測することが可能になります。

たとえば、100エーカーの土地にほぼ均等に木が植えられているとします。その土地に何本の木が植えられているか求める場合、全てを数えなくても1エーカーに何本の木が植えられているか数えて100倍すればおおよその数は求められます。手間は全てを数える場合の100分の1で済みます。

このように、素早く結果を推測する必要がある時にはサンプリングデータをもとにすれば全体を推測することができます。ただし、あくまで推測であって、正確な値ではないことを忘れてはいけません。

サンプリングデータに求められるもの

サンプリングデータによって得られた結果を精度の高いものにするためにはどうすれば良いのでしょうか。たとえば、1,000万件のデータがあるとします。ここから、1万件を抽出して調査するより10万件を抽出して調査した方が、精度が高いように思えますが、実はこれは間違いです。
サンプリング調査の有名な話で、1936年アメリカ大統領選の予測調査の話があります。

リテラリー・ダイジェスト誌が200万～250万件の調査結果から、ランドン候補者の当選を予測したのに対して、ギャラップ社は、1,000～3,000の調査結果から、ルーズベルト候補者の当選を予測し的中させた、というものです。

調査件数が精度を上げるならば、このような結果は起こりません。では何が要因でしょうか。

ギャラップ社は、偏りのないよう属性分布を配慮して調査を実施したそうですが、リテラリー・ダイジェスト誌は、自誌の潜在読者名簿を基に調査を行った為、上流階級層に偏ってしまったそうです。

このようにサンプリングデータに求められるのは、件数ではなく、偏りのないランダム性が求められます。

たとえば、大きな駅の駅前で調査しても、そこには自営業者や車・自転車での通勤・通学者は含まれないという偏ったデータになってしまいます。

ビッグデータかサンプリングデータか

「サンプリングデータを分析し誤差が数％であれば、時間を掛けてビッグデータ（全量データ）を分析するよりも効率が良い。ビッグデータ分析は無意味だ。」という意見があります。

サンプリングデータをランダムに偏りなく抽出できれば、その結果は信憑性のあるものになりますし、ビッグデータ（全量データ）を処理するより遥かに効率の良いものになります。

ただ、ここで問題になるのは、「サンプリングの結果（抽出方法）は本当に正しいのか」ということです。もし、サンプリングデータに偏りがあることに気づかず、その結果を信じて意思決定するとどうなるでしょうか。前述したリテラリー・ダイジェスト誌は廃刊に追い込まれたそうです。

サンプリングデータに求められるのは偏りのないランダム性です。これを証明するのはなかなか難しいものがあり、この議論が始まってしまうとなかなか結論が出ず、その結果業務効率が落ちてしまいます。

このようなことを考えると、全量データで処理した方が確実にその結果を保証できますし、正確な結果を得ることができます。

また、レガシーマイグレーションなどシステムリニューアルに伴うデータ移行に対する移行仕様を決めるためにサンプリングデータを利用されるケースがあります。ところが、サンプリングデータに含まれなかった少数のイレギュラーデータによりデータ移行が失敗するという事例もあります。データ移行では、サンプリングは行わず、初めから全量データで処理することが求められます。

かと言って、ビッグデータ（全量データ）を処理できる環境を整えるには、それなりの投資が必要となります。

そこで、弊社では、お客様からデータをお預りし、お客様に代わりデータ処理を行う「データ整備サービス」を提供しています。最大20億行のデータを確認し、お客様の指定された編集仕様に基づくデータ整備を行っております。詳しくはホームページをご覧ください。