データウェアハウス最適化のPOC

Talend Big Dataと機械学習のクックブック

シリーズのほかのブログ:

Sandboxのセットアップ

IoTの予測保守リアルタイムのリスク評価レコメンデーションエンジン

はじめに

この例では、Sparkのパワーを利用して大規模データセットの分析を実行するデータウェアハウス最適化アプローチを探ります。これにより、データの整合性を確認し、不正データによってデータウェアハウスの品質が損なわれる前にロードの拒否を選択できます。このデモでは、Talend Studioに組み込まれているSpark Engineの機能に焦点を当てるように構成され、ビッグデータプラットフォームに直接接続せずに実行できます。Talend StudioのSparkエンジンは本番環境向けソリューションではありませんが、開発環境でもTalendユーザーは本格的なビッグデータプラットフォームの接続やセットアップなしにSparkの機能を全面活用できます。


主なトピック

Sandboxのデータウェアハウス分析

アナリティクスの事前ロード

データウェアハウスにロードする前に大量のデータを分析することで、データウェアハウス内のコストのかかるデータ異常のオーバーヘッドを排除できます。

Sandboxアイコン大規模処理

Sparkでの大規模処理

TalendとSparkを使えば、ギガバイト/テラバイト規模のデータを短時間で処理できます。

ETLのオフロード

ビッグデータプラットフォームでTalendを利用すると、コストのかかるデータ処理のオーバーヘッドを排除してデータウェアハウスを最適化できます。


実行

Sandboxのロードページから[Data Warehouse Optimization]ユースケースポータルにアクセスして、簡単な指示とグラフィカルWebインターフェイスを利用します。

Sandboxの[Data Warehouse Optimization]読み込みページ

Sandbox環境内でTalend Studioを開きます。この例では、リポジトリビューの[Warehouse_Optimization]フォルダーを使用します。[Standard][Big Data Batch]のジョブ設計で、ジョブについて探索します。開始する準備ができたら、以下のステップに従ってください。

  1. [Big Data Batch]ジョブの下の[Warehouse_Optimization]フォルダーにナビゲートします。ジョブStep_01_Generate_MonthlyReportを実行します。これは、単一のディレクトリーから多数のファイルの集合を読み取り、そのデータを単一のレポートに集約するSparkジョブです。[Data Warehouse Optimization]での月次レポートの生成
  2. [Big Data Batch]ジョブの下の[Warehouse_Optimization]フォルダーにナビゲートします。ジョブStep_02_Month_Over_Month_Comparisonを実行します。このSparkジョブは、前のジョブから新しい集約データを取得し、それを前月に生成されたものと同じレポートファイルと比較して、データの異常を示します。典型的なユースケースでは、これらのジョブは新しいデータセットがウェアハウスにロードされるようスケジュールされるたびに実行されます(ここでは毎月)。このSandboxの目的のため、比較のために「前月」のデータをすでに含めました。[Data Warehouse Optimization]での月の比較ジョブ
  3. [Standard]ジョブの下の[Warehouse_Optimization]フォルダーにナビゲートします。ジョブStep_03_GoogleChart_Product_by_Unitを実行します。このジョブは、単に前のジョブで作成された比較レポートをグラフ化するためにGoogleChartsを使います。これらのチャートはこのWebページのダッシュボードで表示できます。[Data Warehouse Optimization]Googleチャート
  4. Webページのダッシュボードと生成された2つのグラフィカルレポートを確認します。一部の製品が他の製品と大幅にずれており、データが不正確であることが示されています。現実のシナリオでは、データに精通しているビジネスアナリストが異常を認識し、ウェアハウスへのデータロードを減少させることができます。

データウェアハウスのデモ用Webページ


まとめ

この例では、Talend Studioに組み込まれているSparkエンジンの使用を取り上げました。この同じデモは、どのビッグデータプラットフォームに対しても実行できるように構成できます。大規模データはロードに時間がかかり、データが破損していたり不正確である場合は、修正処理にさらに時間がかかる可能性があります。しかし、TalendのネイティブのSpark接続と処理能力により、データウェアハウスにロードする前に迅速かつ簡単に大規模データセットを分析できます。これにより、ビジネスアナリストはデータクオリティをプレビューし、データウェアハウスからデータ処理の大きな負担を取り除くことができます。したがって、優れたレポーティングへの素早いアクセスを提供するという本来の目的のためにウェアハウスを使用できるようになります。

| 最終更新日時: June 26th, 2019