リアルタイムのリスク評価エンジンのPOC

Talend Big Dataと機械学習のクックブック

シリーズのほかのブログ:

Sandboxのセットアップ

IoTの予測保守レコメンデーションエンジンデータウェアハウス最適化

はじめに

この例で、オンライン銀行は、リスクが低く、クレジットオファーを受け入れる可能性が最も高いと考えられる顧客のみにクレジットオファーを提供することで、リスクを軽減しようとしています。このジョブはWeb APIと機械学習により、決定木モデルを使用して、ログイン時に特定のクレジットオファーを表示するか、オファーをまったく表示しないかを決定します。

Sandboxのリアルタイムリスク評価スキーマ


主なトピック

機械学習

Talendの機械学習機能を利用して、決定木モデルを構築します。

Sparkを使用するストリーミングデータ

リアルタイム/Spark Streaming

Sparkを使用して、Apache Kafkaでストリーミングジョブを実行します。

NoSQL/SQL

複数のデータベースモデル(Cassandra、MySQL)を使用します


実行

Sandboxのロードページから[Real-time Risk Assessment]ユースケースポータルにアクセスして、簡単な指示とインタラクティブWebインターフェイスを利用します。

Sandboxの[Real-time Risk Assessment]へのアクセス

Sandbox環境内でTalend Studioを開きます。この例では、リポジトリビューの[RealTimeRiskAssessmentEngine]フォルダーを使用します。[Standard][Big Data Batch][Big Data Streaming]のジョブ設計で、ジョブについて探索します。開始する準備ができたら、以下のステップに従ってください。

  1. [Standard]ジョブの下の[RealTimeRiskAssessmentEngine]フォルダーにナビゲートします。ジョブStep_01_SetupMarketingCampaignsEnvを実行します。このジョブは、選択したビッグデータプラットフォームに基づいてデモ環境を初期化します。具体的には、データを迅速に取得するためにHDFSとNoSQLデータベースにデータをロードします。Sandboxのリスク評価環境セットアップ
  2. [Big Data Batch]ジョブの下の[RealTimeRiskAssessmentEngine]フォルダーにナビゲートします。ジョブStep_02_Train_MarketingCampaignDataを実行します。このジョブは、前のデータセットを使用し、TalendのtDecisionTreeModelコンポーネントを使用して決定木モデルを訓練します。Sandboxのリスク評価訓練モデル
  3. オプション:[Big Data Batch]ジョブの下の[RealTimeRiskAssessmentEngine]フォルダーにナビゲートします。ジョブStep_02bis_Test_MarketingCampaignDataを実行します。このジョブの結果は、誤検知に対する正しい予測の比率を示します。これは、機械学習の専門用語で混同またはエラーマトリックスと呼ばれ、分類の問題に関する予測結果の要約です。このジョブは、別のデータセットで訓練されたモデルのテストとして機能します。Sandboxのリスク評価テストモデル
  4. [Big Data Streaming]ジョブの下の[RealTimeRiskAssessmentEngine]フォルダーにナビゲートします。ジョブStep_03_RealtimeConversionPredictionを実行します。このジョブは、ユーザーに表示する広告をリアルタイムで予測します。Sandboxのリスク評価予測
  5. [Standard]ジョブの下の[RealTimeRiskAssessmentEngine]フォルダーにナビゲートします。ジョブStep_04_AdServiceとジョブStep_05_LoginServiceを実行します。これらのジョブは、リアルタイムのリスク評価用WebポータルにWeb APIを提供し、結果をテストできるようにします。

    Step_04_AdService

    Sandboxのリスク評価広告サービス

    Step_05_LoginService

    Sandboxのリスク評価ログインサービス

  6. Webサービスが実行されている状態で、[Real-time Risk Assessment]ポータルページに移動するか、再ロードします。Webページのフォームに入力して、表示される広告の結果を確認します。この例では、約1500人のユーザーのデータベースが提供されています。0〜1547のIDでログインして結果を確認します。ほとんどのユーザーに広告は表示されません。ただし、選択した少数のユーザーには、ターゲットを絞ったマーケティング広告が表示されることが示されます。たとえば、ID 569でログインすると、ターゲットマーケティング広告が表示されることを確認できます。同じユーザーIDで2回ログインした場合、ターゲット広告は途中で保存されるため、結果の決定は即座に表示されます。


まとめ

この例では、即座の洞察と意思決定の処理を提供するための機械学習とSparkの使用を取り上げました。決定木モデルを使用して、マーケティングキャンペーンを特定の顧客に絞り込むことを決定できました。

| 最終更新日時: June 26th, 2019