データマネジメントの要!データ品質管理のことはじめ 第2回 データ品質管理の進め方

2023.05.22

はじめに

本コラム「データマネジメントの要!データ品質管理のことはじめ」は、3回に分けてお送りしています。第1回では、「データ品質管理とは」と題し、データ品質管理の基本的な概念と実践する際の課題について述べました。第1回をまだ読んでいない方は、ぜひ以下からご覧ください。

第1回 データ品質管理とは

データ品質管理は、データから効果的に価値を引き出したいと考えている企業にとって重要な取り組みとなります。しかしながら、実践する際に以下のような課題があるため、なかなか取り組みが進まない実状があるかと思います。
前回述べた4つの課題を再掲します。

  • どのデータを対象にデータ品質管理を実施すれば良いのか分からない
  • データ品質の基準の決め方が分からない
  • データソースの多様化によるデータ品質管理の複雑さ
  • データを取り巻く人・プロセス・テクノロジーの変化への対応

上記の1点目と2点目に関しては、データ品質管理の計画時における進め方やその過程で検討すべき事項などが具体的にイメージできると、取り組みやすくなると考えています。
今回は、データ品質管理を実施するうえでのアクティビティ(活動内容)や進め方について、前回に引き続きDMBOKに沿って解説していきます。

データ品質管理のアクティビティと作業ステップ

DMBOK では、データ品質管理の活動として、6つアクティビティを定義してします。それぞれのアクティビティで実施する大まかな活動内容と対応する作業ステップで整理すると、次のようになります。

図1:データ品質管理のアクティビティと作業ステップ
図1:データ品質管理のアクティビティと作業ステップ

作業ステップの概要

  • ビジネスニーズの明確化
    データ利活用に対するビジネスニーズを5W1Hの観点でまとめます。対象となるデータセットの選定までは踏み込まず、ビジネス視点で求められるデータ要件とその品質評価指標などの要件を定めます。
  • データ品質管理対象の選定
    対象となるデータセットを洗い出し、実データの現状を把握したうえで、データ品質管理対象を絞り込みます。
  • データ品質基準の策定
    データ品質の測定方法やデータ品質の指標に対する閾値を定義します。また、閾値を超えた場合の対応方法もここで検討します。
  • 運用フローの策定
    データ品質管理を継続的に運用するためのフローを整理します。データ品質に問題が生じた場合のデータ修正や定期的なレポーティングなど運用フローを策定します。

上記の作業ステップに沿って進めることで、データ品質管理の対象となるデータや項目が明確になり、データ品質の基準に基づく継続的な運用方法を定めることができます。

  • 本稿ではデータ品質管理を進めるための組織や体制については触れません。ただし、データ品質管理を推進する役割は個別の組織横断チームを想定しています。業務部門やIT部門などその領域の専門家からインプットを得たり、合意形成を図ったりすることが求められるためです。DMBOKにおいても、その役割の必要性を述べており、本稿ではその役割を「データ品質管理チーム」として記載しています。

データ品質管理の各作業ステップの活動内容

データ品質管理の各作業ステップで実施する具体的な活動内容を見ていきます。
よりイメージをつかみやすいように、ECサイトを運営する架空の企業におけるデータ利活用をモデルケースに用いて解説します。

① ビジネスニーズの明確化

データ品質管理の最初のステップは、データ品質の向上が、どのようなビジネスニーズによって要求されているかを把握し、分析するところから始まります。
ビジネスニーズを明確化するには、「ビジネス上の目的」、「対象業務」、「データ要求」、「データ品質要件」の4つの観点に対し、5W1Hで整理していきます。
モデルケースを用いて整理してみると次のようになります。

図2:「ビジネスニーズの明確化」の整理イメージ
図2:「ビジネスニーズの明確化」の整理イメージ

各観点に関して、それぞれ以下の要領で整理します。

  • ビジネス上の目的
    背景やねらい(Why)、目的(What)をビジネス視点で記載します。目的は可能な限り具体的に記載します。また粒度が粗い場合は、ブレークダウンして記載すると良いでしょう。また、複数の目的が存在する場合はその目的ごとに各観点を整理します。
  • 対象業務
    対象業務(Where)やその業務の実施頻度(When)、関連する部署や担当者(Who)を整理します。
  • データ要求(What)
    ビジネス目的を満たすために必要な情報の要求(What)を洗い出します。この段階で対象のデータセットを決めるのではなく、要求レベルで整理します。
  • データ品質要件
    データ要求に対して、どのような品質が求められるか特性も踏まえて重要な評価軸(How)を定義します。なお、DMBOKでは、以下の8つの評価軸を定義しています。
評価軸 説明
正確性 データが「現実」の実体を正しく表している。他の正しい情報と値が一致している。 システム上で登録されている顧客の居住地とその顧客の現居住地が一致している。
完全性 必要なデータが、適切な値で、全て存在している。 住所テーブルの郵便番号を入力する項目に全て適切な値が入っている。
一貫性 あるデータセット内のデータ値が、他のデータセットの値と一致している。 単価は複数のシステムで保持している項目だが、必ず1円単位で表されている。
整合性 外部キーで参照するレコードが実際に存在し、そのエンティティが一意である。 受注明細に記載されている品目コードを外部キーとして参照した際、該当するレコードが品目マスタに存在する。
妥当性 データのパターンが期待を満たすものである。 今期の売上額が、前年比での±5%以内に収まっている。
適時性 情報を必要な時にすぐ利用できる。 株式市場のレコードは取引されてから5分以内に届いている。
(利用者が望むタイミングでデータが利用できている)
一意性 エンティティがデータセット内に一つだけ存在する。 顧客「A株式会社」は、顧客コード「12345」で表され、重複して登録されていない。
有効性 データ値が定義された値の範囲と合致している。 フィールドX=値1の場合、フィールドYは値1~値2で入力されている。

② データ品質管理対象の選定

「①ビジネスニーズの明確化」で実施した整理結果をもとにデータ品質管理の対象となるデータおよび項目を選定します。ここでは、「データ要件に関連するデータ・項目の洗い出し」と「プロファイリングの実施」、「データ品質管理対象の選定」の流れで進めていきます。

・ データ要件に関連するデータ・項目の洗い出し

データ要件に関連するデータ(テーブル)、項目(カラム)を洗い出します。ER図やテーブル定義書などのインプット情報などを活用すると効率よく実施できます。

図3:データ要件に関連するデータ・項目の洗い出しイメージ
図3:データ要件に関連するデータ・項目の洗い出しイメージ

図3の例では、2つのテーブルから対象項目の洗い出しができていますが、実際はアクセスログや顧客情報に加え、購買実績を集計した結果を格納したテーブルなど正規化された複数のテーブルが関連することが多いでしょう。必要に応じて、業務部門にヒアリングを実施して対象テーブルや項目の見当をつけるなども進めるうえでのポイントとなります。

・プロファイリングの実施

データ要件に関連するデータ、項目の洗い出しが完了したら、次は現状のデータ品質を把握するためにプロファイルを実施します。各項目に対し、データの抽出条件や測定方法を定義し、評価軸(データ品質要件)に沿って、実データの適合の度合いを測定します。

図4:プロファイル結果のイメージ
図4:プロファイル結果のイメージ

プロファイルの実施方法は、評価軸(データ品質要件)によって異なりますが、例えば以下のような測定を行います。

  • NULL数:NULLの件数をカウントする
  • 最大値・最小値:値が許容される範囲に収まっているか確認する
  • 最大長・最小長:特定の桁数要件をもつフィールドの外れ値や異常値を検出する
  • 度数分布:値の妥当性を評価する(トランザクションの国コードの分布など)
  • データ型とフォーマット:フォーマット要件への不適合を検出する(小数点以下の桁数、スペースの混入など)

なお、プロファイリングの実施はツールを利用すると効率よく実施できます。ここでは、弊社が提供するオールインワンデータ分析プラットフォーム「Dataiku」を利用した例を紹介します。

図5:Dataikuを使ったデータセットへのクエリ
図5:Dataikuを使ったデータセットへのクエリ

図6:Dataikuを使ったデータプロファイリング
図6:Dataikuを使ったデータプロファイリング

Dataikuのようなデータ視覚化機能や、複数データセットへのクエリが容易に発行できる機能を持つツールの活用は、データ探索やプロファイリングにおいて、特に重要になります。

・データ品質管理対象の選定

プロファイル結果と対象項目のビジネス影響を踏まえ、データ品質管理対象にするか否かを判定します。

図7:データ品質管理対象の選定イメージ
図7:データ品質管理対象の選定イメージ

ビジネス影響は、影響範囲の大きさ(部門間にまたがる影響)やそのデータ品質を損なわれることによるリスクの大きさにより度合いを決めます。例えば、モデルケースの場合、顧客に関する情報のビジネス影響を高く設定しています。これは、販促メールの重複送信や誤った情報を配信することにつながるためです。
管理対象の選定では、プロファイル結果とビジネス影響度を総合して要否を判定します。例えば、現状のエラー件数が多くても(データ品質の品質が低くても)、ビジネス影響が低ければ、対象としなくても良いという場合があります。最終的な判断に際しては、ステークホルダーとの協議・合意形成を図ります。

③データ品質基準の策定

「②データ品質管理対象の選定」で選定したデータ品質管理対象の項目に対して、データ品質測定方法やデータ品質の許容閾値、許容閾値を超えた場合の対応などのSLAを定義します。

図8:データ品質基準の策定イメージ
図8:データ品質基準の策定イメージ

データ品質の測定方法は、実施タイミングや対応組織・担当者および具体的な実施方法まで落とし込みます。また、守るべきデータ品質の水準(図8では適合件数の割合で記載)を閾値として設定します。この閾値はデータ品質の目標値にもなるため、目標を達成するためのコストとのバランスも考慮する必要があります。

④ 運用フローの策定

「③データ品質基準の策定」まででデータ品質の測定方法および基準を策定できました。
最後は、データ品質で問題が発生した場合の対応手順や定期報告などの運用フローを定義します。

図9:運用フローの策定イメージ
図9:運用フローの策定イメージ

ここでのポイントは、問題発生時の対応タイミング(対応期限)や実施方法、定期報告のタイミング(日時)や対応者を可能な限り定義しておくことです。
これにより、問題が発生した場合にいつまでに誰が責任をもって対応するのか明確になり、問題が放置されることを防ぐことができます。
また、定期報告は業務部門などステークホルダーを巻き込んで実施することで成果をアピールすることにもつながり、継続的な取り組みを推進するためのスポンサーを得ることも期待できます。

おわりに

今回は、データ品質管理の進め方について解説しました。データ品質管理は、戦略的に実施していく必要があります。ビジネス上の目的に沿った形でデータ品質管理の対象となるデータの選定と基準の策定、誰が・いつ・どのように対応するのかといった運用も検討しておくことが重要です。

ここまでで、データ品質管理のPDCAサイクルを回すことができるようになりました。しかしながら、この取り組みを継続的に実施し、定着化させるには運用の効率化が欠かせません。また、冒頭で述べた4つの課題のうち、残す以下の2つについても対応が必要になってくることでしょう。

  • データソースの多様化によるデータ品質管理の複雑さ
  • データを取り巻く人・プロセス・テクノロジーの変化への対応

これらの課題を解消するには、ツールやデータ品質管理を実現できるプラットフォームの助けが必要です。
次回は、上述の「プロファイリングの実施」で紹介したDataikuを使って、データ品質管理を効率的に実施するために整備が必要な仕組みや実践例を紹介します。

  • 文章中の商品名、会社名、団体名は、各社の商標または登録商標です。
  • ホーム
  • コラム
  • DX
  • データマネジメントの要!データ品質管理のことはじめ 第2回 データ品質管理の進め方

データマネジメントの要!データ品質管理のことはじめ 第2回 データ品質管理の進め方