データマネジメントの要!データ品質管理のことはじめ 第1回 データ品質管理とは
はじめに
近年、デジタルトランスフォーメーション(DX)はさまざまな業界で求められており、各企業はDX化の取り組みを推進しています。その取り組みのなかで、データの利活用は重要な要素として位置づけられています。
人や企業の多くの活動がデジタル化され、取得可能なデータの種類と量も増え、あらゆる業界、あらゆる領域でデータ利活用の試みが行われるなかで、データに基づく意思決定や予測、最適化、データ駆動型の戦略策定と遂行は、企業の競争力強化に不可欠となっています。一方で、ユースケースばかりに目を向けてしまい、データ品質がおざなりになっている場合があります。データはそのものだけでなく、加工・変換をして分析した結果をビジネス上の意思決定に利用したり、AI/機械学習の学習データとして利用したりと二次、三次と加工されて活用されます。元のデータの品質が悪いとそのデータを利用して導出した結果の品質にも悪影響を及ぼすことになり、その結果ビジネスに損失を与えることがあります。
データ利活用の文脈においてよく使われる表現に、「Garbage in, Garbage out」(ゴミからはゴミしか生まれない)というものがありますが、このような課題を解決するには、単にデータを収集するだけでなく、データ品質の観点で管理を行うことが重要です。
本連載では、複数回にわたり、データ品質管理における考え方や全体のプロセス、運用について、具体例を交えて解説します。
データ品質管理とは
データ品質の課題に取り組むには体系的なアプローチが必要です。国際的なデータ専門家で組織されたData Management Association International (DAMA I)のデータマネジメント知識体系ガイド(DMBOK)の中にデータ品質管理について次のような考え方が提唱されています。
データが様々な目的で利用されていて、データ利用者の要求を満たすことを保証するために、品質管理に関わる技術を適用する活動の計画、実施、管理である
つまり、データ品質とは「データ利用者にとってのデータの品質」のことであり、その「要求」というのはビジネス上の「目的」のことを示します。それに合致するデータこそが、品質の高いデータと定義することができます。
極端な話をすれば、99.9%のレコードが完全であっても、その0.1%だけが、利用者が求めているデータであったならば、そのデータは使い物にならない(品質が低い)データといえます。
データ活用の目的によって、求められるデータ品質の基準は異なるので、組織内におけるデータ品質の現状の認識、目標となるデータ品質基準を定義したうえで、データ品質を向上させるための計画を策定することが、データ品質管理を実施していくうえでのポイントになります。
また、データ品質管理は特定の時点だけで行うだけではなく、継続的に改善を図っていくものです。定期的に評価し、データが品質基準を満たし、ビジネス上の目的に沿った形で活用できているかを確認することが重要です。
データ品質管理においても、製品の品質管理におけるPDCAサイクルと同様に下図のような管理サイクルを回す必要があります。
Plan(計画) | データ活用目的の明確化とその目的に合致するデータ品質の基準・評価軸を決定します。データ利用者を交え、ビジネスの要求に沿った評価軸を定め、その評価軸に沿って「データが利用できる状態であること」を判定するための基準(データ品質基準)を策定します。 |
Do(実行) | 定めた評価軸に対して、現状がどのような状態なのか定量的に把握します。この時点で、データ品質の問題に対するプロセス(データクレンジングの方法)なども検討しておきます。 |
Check(評価) | データの状態を監視し、データ品質基準を満たしているかどうか評価します。データの品質が許容範囲を下回る場合は、問題に対する対処を検討します。 |
Action(改善) | 評価結果をもとに、定めたプロセスに沿って問題の対処(データクレンジング)を行い、期待する品質に適合させていきます。また、データの利用目的や外的要因により、データ品質に対する期待が変わる場合は最初のプロセスから繰り返します。 |
データ品質管理の難しさ
ここまでデータ品質管理の基本的な概念を紹介しましたが、実践していくには次のような課題があります。
- ・データ品質基準の定義
データ品質は高ければ良いというわけではありません。製品と同じように、品質を高めれば、それに伴いコストも高くなることに留意が必要です。実行フェーズを確実に遂行できるように、データ品質基準、コストのバランスをとる必要があります。 - ・データ品質の評価軸の選定
データ品質という言葉だけをみると、今DWHに格納してあるデータの完全性、一意性、一貫性といった評価軸に目が向きがちですが、「利用者の活用目的に合致しているか」状況を可視化できる評価軸を定義する必要があります。
評価軸にはDMBOKで定めるところでは、正確性、完全性、一貫性、整合性、妥当性、適時性、一意性、有効性がありますが、他にも複数種の評価軸が提唱されています。
データ活用の目的と照らし合わせた形で、重視すべき評価軸を決める必要があります。 - ・データソースの多様性
これまで企業は、販売データや在庫データなど、自社の業務システムから生成されたデータを主に利用していました。しかしながら、現在収集できるデータは多様化し複雑さを増しています。例えば、Webサイトのアクセスログやモバイルデバイスから取得したデータ、大量のログやセンサーデータ、画像や音声といった非構造データなど、企業にとって、さまざまなデータソースから複雑な構造を持つデータの品質管理は困難な作業となります。 - ・データを取り巻く人・プロセス・テクノロジー
データ品質管理は、IT部門だけで取り組むものではありません。業務部門、経営を含めたメンバーがデータ品質の影響度や重要性を理解することが求められます。また、保有しているデータを維持・運用・活用できるよう、プロセスとテクノロジー(ツール、プラットフォーム)を整備していく必要があります。
このような状況のなかで、先に紹介したDMBOKが役に立ちます。DMBOKには、データ品質管理におけるプロセスやアクティビティ、検討が必要な項目など取り組みの基本的な指針が定められており、体系的に整理された方法論を参照しながら遂行していくことができます。
しかしながら、DMBOKはあらゆる業界やシステムに適用できるように抽象化されているため、具体的なアクションやアウトプットのイメージがしづらいところがあります。
そこで、次回以降DMBOKをベースに具体例を交えながらデータ品質管理の進め方について解説していきます。
おわりに
今回は、データ品質管理の概要とその課題について述べました。次回は、データ品質管理の進め方を具体例も交えて紹介していきます。
- ※文章中の商品名、会社名、団体名は、各社の商標または登録商標です。