データプロファイリングとは?

データプロファイリングはビジネスに不可欠です。データプロファイリングを使用してデータを編成/分析する企業は、新たな成功につながる可能性を発見し、市場で明確かつ強力な優位性を発揮できます。

データプロファイリングとは?

データプロファイリングとは、データを調査/分析して有用なサマリーを作成するプロセスを指します。このプロセスによって、データクオリティの問題、リスク、総体的なトレンドの発見に役立つ大局的概要を得ることができます。データプロファイリングが提供するデータの重要な知見を活用して、企業は優位性を導くことができます。

具体的には、データプロファイリングは、正当性と品質の判断のためにデータを分類します。分析アルゴリズムは、平均、最小、最大、パーセンタイル、頻度などのデータセットの特性を検出して、細部までデータを検査します。次に、その情報を使用して、これらの要因がビジネスの基準や目標にどのように連携するかを明らかにします。

再生 Better Data Quality for All をダウンロードする
今すぐ見る

データプロファイリングのメリット

データクオリティの問題によって、米国企業に年間3兆ドル以上のコストが発生しています。多くの企業が、何百万ドルもの無駄なコストを負担し、戦略を見直さなければならず、評判を損なっていることになります。では、データクオリティの問題はどのように発生するのでしょうか。

多くの場合、原因は見過ごしです。データの収集と運用の管理に忙殺されるために、データの有効性と品質が損なわれます。これは、生産性の低下、販売機会の逸失、収益改善の機会を逃したことを意味することもあります。このような状況で役立つのが、データプロファイリングアプリケーションです。

データプロファイリングアプリケーションが稼働開始すると、データの分析、クレンジング、更新が連続的に実行され、ノートパソコンから直接的に重要な知見が提供されます。特に、データプロファイリングは次の機能を提供します。

  • データのクオリティと信頼性の向上 — データが分析されると、アプリケーションが重複や異常を排除します。選択に影響を及ぼす可能性のある有益な情報を特定し、組織のシステム内に存在する品質の問題を明らかにし、今後の状況に関する特定の結論を導き出すことができます。
  • 予測的な意思決定 — プロファイリングされた情報を使用して、小さなミスが大きな問題に発展するのを防止できます。また、新しいシナリオによる結果の可能性を明らかにすることもできます。データプロファイリングにより、企業の状態を正確に把握して、より正確な情報を意思決定プロセスで役立てることが可能です。
  • 積極的な危機管理 — データプロファイリングは、問題が発生する前に迅速に特定し解決するのにも役立ちます。
  • 編成されたソート機能 — ほとんどのデータベースは、ブログ、ソーシャルメディアなどのビッグデータ市場を含む多様なデータセットと相互作用します。プロファイリングは、元のソースまでデータをトレースし、安全のために適切な暗号化を保証します。データプロファイラーは、これらの異なるデータベース、ソースのアプリケーションや表を分析し、データが標準的な統計指標や特定のビジネスルールを満たしていることを確認できます。

利用可能なデータ、欠落したデータ、必要なデータとの関係を理解することは、組織が将来の戦略を策定し、長期的目標を決定するのに役立ちます。データプロファイリングアプリケーションにアクセスすることで、これらの取り組みが合理化されます。

The Definitive Guide to Data Qualityをダウンロードする
今すぐダウンロード

データプロファイリングの手法

一般的に、データプロファイリングアプリケーションはデータベースを分析するために、その情報を編成/収集しますが、データプロファイリングには3つの特徴的なコンポーネントも含まれています。

  • 構造の発見 — 構造の発見(または分析)は、データに一貫性があり、正しくフォーマットされているかどうかを判断するのに役立ちます。基本的な統計を使用して、データの有効性に関する情報を提供します。
  • コンテンツの発見 — コンテンツの発見は、データクオリティに焦点を当てます。データのフォーマット、標準化、既存のデータとの適切な統合を、迅速かつ効率的に処理する必要があります。たとえば、住所のフォーマットが間違っていると、一部の顧客が住所不明になり、配送を完了できない可能性があります。
  • 関係の発見 — 関係の発見は、異なるデータセット間のつながりを識別します。

実際のデータプロファイリング

莫大な量のデータを使用できるようになった今日、企業はその情報量に圧倒されてしまい、データを十分に活用することができず、データの価値と有用性が損なわれます。データプロファイリングは、ビッグデータを編成/管理し、潜在性を最大限に引き出し、強力な知見を提供します。Talendも、まさにこの支援を提供しているのです。

ドミノ・ピザに押し寄せるデータ

14,000近い店舗を展開するドミノ・ピザは、2015年時点ですでに世界最大のピザチェーン運営企業でした。しかし、スマートウォッチ、テレビ、カーエンターテイメントシステム、ソーシャルメディアプラットフォームなど、顧客が事実上あらゆるタイプのデバイスやアプリで注文可能なAnyWare注文システムが始動したことで、突如莫大なデータに対応する必要性に迫られました。

全方面からデータを受け取るようになった同社は、信頼性の高いデータプロファイリングを活用することにより、すべてのPOSシステムからデータを収集して分析し、分析の合理化とデータクオリティの向上を実現しています。その結果、顧客基盤に対する知見の向上、不正検知プロセスの強化、業務効率の改善、売上の増大を達成しました。

カスタマーロイヤリティを実現するデータクオリティ

オフィス・デポはオンラインのプレゼンスと継続的な実店舗運営の戦略を組み合わせています。このため、印刷カタログ、オンラインのWebサイト、カスタマーコールセンターの3つのチャネルからの情報を組み合わせ、データを統合することが不可欠です。

特に、データプロファイリングを使用して、同社のデータレイクに到着する前のデータのチェックと品質管理を実行しています。統合されたオンラインデータとオフラインデータにより、360度の完全な顧客ビューが得られます。また、全社的なバックオフィス機能向けに高品質の大規模データを提供しています。

データレイクとクラウドを活用するデータプロファイリング

莫大な量のデータをクラウドに格納する企業が増えているため、効果的なデータプロファイリングの必要性がこれまで以上に高くなっています。クラウドベースのデータレイクにより、企業はすでにペタバイト規模のデータを格納できるようになっています。また、モノのインターネットによって、私たちの家、衣類、テクノロジーなどの増え続けるソースから膨大な情報が収集され、データ容量が拡大しています。

現代の市場ではクラウドネイティブのビッグデータ機能の推進力が強まる一方であり、そこで競争力を維持するには、すべてのデータを活用できる態勢を整える必要があります。コンプライアンス標準への対応でも、卓越したカスタマーサービスで知られるブランドの確立でも、成否を分けるのはデータストアを管理するためのデータプロファイリングです。

Build a True Data Lake with a Cloud Data Warehouseをダウンロードする
今すぐダウンロード

データプロファイリングの開始

Talend Data Quality Platformは、大規模で多様なデータセットを管理するための 抽出、ロード、変換プロセスを簡素化するオープンソースのプロファイリングツールを提供します。

学習しやすく使いやすいTalend Data Qualityは、サポートも充実しています。質の高いユーザードキュメント、オンデマンドチュートリアル、ウェビナー、大規模で活発なTalendユーザーコミュニティを利用できます。

Talend Data Preparationを使用すると、データエンジニアは、データディスカバリーのような基本的なプロファイリングを簡単に実行できるビジネスユーザーに委任します。次に、データのエラーを特定し、Talend Data Quality Platformで問題を解決するようITに依頼できます。

Talend Data Qualityにはデータ評価ツールも含まれ、これにより顧客関係、サプライチェーンの効率、コンプライアンスの取り組み、社内の意思決定を強化するなどのメリットが提供されます。ほかにも、次のような機能を持ちます。

  • データコネクターを組み込む単一のグラフィカルコンソールから、幅広いデータベース、ファイルタイプ、アプリケーションに簡単にアクセスできます。
  • データエクスプローラーを使用して個別のデータソースをドリルダウンし、特定のレコードを表示できます。
  • カテゴリー別レコードの単純なカウントから、特定のテキスト/数値フィールド、音声やサウンドに基づく高度なインデックス作成まで、統計データプロファイリングの分析機能を提供します。
  • カスタムのビジネスルールをデータに適用することで、特定のしきい値を超えるレコードや、定義された範囲内/範囲外のレコードを識別できます。
  • 指定された内部標準(SKU、部品番号フォームなど)や外部参照標準(電子メールアドレス形式、国際郵便番号など)に準拠しないデータを特定できます。

新しいデータプロジェクトを開始する場合も、既存のデータベースの機能を向上させたい場合も、TalendのData Qualityツールを使用することでデータを自在に制御できます。データプロファイリングの効果を実際に確認するためにも、無償のData QualityまたはTalend Open Studio for Data Qualityをお試しください。

| 最終更新日時: January 28th, 2019