Modern Times編集部

Modern Times編集部

(写真:Macrovector / shutterstock

データプレパレーション(Data Preparation)

「データプレパレーション(Data Preparation)」とは、データ処理やデータ分析をする前に、データをあらかじめ処理や分析に適するように変換するプロセスを指します。プレパレーション(Preparation)とは「準備」の意味であり、データ処理やデータ分析の準備段階としてデータプレパレーションがあります。詳しく解説します。

Updated by Modern Times on December, 13, 2022, 5:00 am JST

ビジネスインテリジェンス(BI)ツール、AI(人工知能)などのデータ処理や分析は、様々な側面で利用が広がっています。
データ処理や分析をするには、利用するデータを用意しなければなりません。一方で、データには様々な種類や形式のものがあることはご存知の通りです。表計算ソフトやデータベースで整理されたテキスト形式のデータだけでなく、IoT機器から得られるセンサーデータ、工場の生産機器などが吐き出すログデータ、画像や映像のデータもありますし、問い合わせ窓口にかかってきた電話を録音した音声データなどもあります。データベースに記録された同じようなフォーマットのデータであっても、データ項目の定義の違いや表記の揺れがあります。
こうした多様なデータをデータ処理や分析のためのツールで活用できるように、収集して変換、加工する工程がデータプレパレーションです。

データ処理や分析をする際に、データ分析の結果から正しい意思決定をするためには、データプレパレーションは不可欠な工程です。分析に適していないフォーマットのデータは排除したり、再加工したりすることが必要です。
破損したデータや不正確なデータなどは、データクレンジングと呼ぶ手法で修正、排除します。分析に適したデータをきちんと準備することで、はじめて意味のある分析結果を得られます。

データプレパレーションは広義では、ここまででお伝えしたようなデータ分析の事前準備の全般を指します。
一方で、もう少し狭義では、IT部門でデータ分析のスキルを持った人だけでなく、ビジネス部門の現場で働くユーザーが自由にデータ分析をできるように、データを準備することを意味します。

データプレパレーションに似た作業に、IT部門などのシステム開発者がデータ分析をする際にデータを整理する「ETL」があります。ETLは「Extract:抽出」「Transform:変換」「Load:格納」の頭文字を取ったものです。
対象がシステム開発者であるため、ETLを実行してデータ分析をするには、プログラミングなどのITスキルが求められることが多くなります。

一方で、狭義のデータプレパレーションは現場のユーザーがBIツールやAIエンジンなどを活用して、ビジネスの意思決定に必要なデータ分析をするための準備工程になります。そのため、データプレパレーションでは直感的なGUI(グラフィカルユーザーインタフェース)を採用したツールにより、平易な方法でデータの加工、修正ができる仕組みが求められます。BIツールやETLツールには、直感的にデータプレパレーションを実現できる機能を用意しているものもあります。
IT部門に頼るデータ分析だけでなく、現場で有効な意思決定をするためのデータ分析を簡便に行うためには、狭義のデータプレパレーションを実現できるツールの導入が求められるでしょう。