ほしい情報を生み出すためにどんな加工が必要か。把握するのは熟練の分析者でも時間がかかる
データを利用する際に課題となるのは、それを使う人々のデータに対する理解を深める必要があり、かつその学習コストが高いということです。データを分析するためのSQLやDBなどといった技術的な知識を身につけるだけはでなく、データそのものについてへの理解を深めなければなりません。実は、目の前にあるデータがどこから来ていて、どの程度の信頼性があり、ほしい情報を生み出すためにどんな加工が必要なのか把握することは、熟練の分析者でも時間がかかるものなのです。
前回の記事で述べたように、構成員(社員)にデータを正しく使ってもらうためには、データの品質を高める必要があります。品質を保証できるようにして、誤りや矛盾などの問題がないような正しいデータを作らなければなりません。これはすべての前提として求められることです。
品質の高いデータが揃ったら、次は利用しやすいデータに整えなければなりません。正しいデータがあるだけでは、専門家以外の人が気軽に分析することは難しいでしょう。分析者は必要なデータを抽出・集計するためにどのようにデータを結合し処理していけばよいのかを理解する必要があります。これは分析の目的やビジネス、ドメイン、データベースの特性を踏まえて考えなければならないため非常に複雑な工程です。