薄井研二

薄井研二

(写真:JLco Julia Amaral / shutterstock

無駄なデータ収集にコストをかけないために。「使えるデータ」を集めるプラクティス

データの民主化のためには、多くの人が効率よく安全にデータ分析できるように環境を整えていかなくてはなりません。ここではとくにロジスティクスについて目を向けてみましょう。

Updated by Kenji Usui on August, 25, 2023, 5:00 am JST

高品質なデータには5つの条件が揃っている

データを用いた意思決定を行うには、正しいデータが集められていることが大前提となります。当然ですが、正しくないデータから適切な意思決定をすることはできません。間違ったデータから得られるのは、不適切な意思決定だけです。

では、データの品質とはどのように定義すればよいのでしょうか?

ビジネスモデルや組織体制、システムの環境などは企業によって異なるため、必要とされる内容には違いはあります。とはいえ、基本的にに求められる枠組みはどこの企業でも大きな差はありません。ここでは、国際基準であるISOや日本政府の提供している評価基準からピックアップしてみます。

正確性
データの正しさです。データと実態に齟齬がない状態を目指します。例えば、CRMで顧客の名前や連絡先が間違っていたら正確なデータとはいえません。誤字脱字も問題になります。

完全性
抜けや漏れが少なく、分析のために必要なデータが存在することです。たとえば、入力が必須項目であるはずが空欄のまま保存されていたら、完全性に欠けたデータとなります。システム上の不備で一定期間のデータに抜けがあるような状態も避ける必要があるでしょう。

一貫性
データ同士の整合性です。データに矛盾があったりズレが存在したりすると、分析するために前処理が必要になるうえ、そもそもデータとしてどれを信用したらよいのかわかりません。たとえば、郵便番号と住所が違っていたら、どちらを信用すべきでしょうか?全角や半角、記号の表記ゆれなどは細かな差異のように見えますが、分析では重大な問題になりえます。

最新性
いつまでも古いままのデータでは、変化の激しいビジネスの現場では使い物になりません。定期的な更新が必要です。くわえて、更新の頻度も重要です。1日ごとの更新、1時間ごと、1分ごと、随時更新……と更新の頻度は高ければ高いほど優れているように見えますが、更新頻度が高いほど保守・運用コストも高くなります。

追跡可能性(トレーサビリティ)
データがどこからきて、どのような変更が起きたのか追跡できることです。たとえば売上ひとつとっても、請求書の発行段階を指すのか入金の段階を指すのかで差が生まれます。広告とECサイトでは更新頻度や対象とする範囲が違うため、どの数値を見ているのかわかる必要があります。CRMを使っていて入力後に変更されたとき、誰がどのように変更したのか追跡しなければ、データの信頼性に関わるでしょう。