TalendとCloudera Altusの連携が簡単な理由

article in English

 

ご存じの方も多いかと思いますが、Talendは先日、新たにリリースされたCloudera Altusのサポートを発表しました。Cloudera Altusは、大規模データ処理アプリケーションのパブリッククラウドでの実行を簡素化するPlatform-as-a-Service(PaaS)ソリューションです。 Talendのお客様がクラウドのメリットであるコスト、利便性、スケーラビリティの実現を目指していることを考えると、Altusをリリース当初からサポートすることは最も簡単な決定でした。Talend Studioでデータパイプラインを構築してテストし、Altusクラスターに直接展開できるので、作業が大幅に単純化されます。

Talendは、Cloudera Altusのサポートを提供する初めての統合プロバイダーです。Talendは、Cloudera Altusのサポートを提供する初めての統合プロバイダーです。

Cloudera Altusが解決する課題

Cloudera Altusは、データエンジニアリングのワークロードをクラウドで簡単に実行できるようにするマネージドサービスです。.その特長として、次の3つの機能を挙げることができます。

  1. Altusによって展開されたクラスターは、データの格納場所で実行されます。これらのクラスターに対して実行されるジョブは、Amazon S3のデータを直接読み書きでき、別の場所からデータをコピーしたりロードする必要がありません。
  2. Altusは従量制モデルを採用しているので、ユーザーはデータ処理の費用対効果を高めることができます。
  3. 最後に、AltusはエンタープライズClouderaプラットフォームに基づいているため、既存のClouderaユーザーは、オンプレミス環境とクラウド環境の間でワークロードを容易に移行できます。

Altusは、当初はAWSでのClouderaクラスターの展開を提供します。Cloudera社は今後、Microsoft Azure等のパブリッククラウドへとサポートを拡大する予定です。

AltusとTalendの連携がもたらすメリット

プレスリリースに記載のとおり、Altusはビッグデータプロジェクトの展開を劇的に高速化し、運用サポートを大幅に削減するため、クラウドへ移行するTalendのお客様にとって重要な役割を果たします。そしてTalendは、Altusプラットフォームでのインテリジェントなデータパイプラインを簡単に構築し、迅速に展開できるようにするので、Altusを使用することの価値をさらに高めます。 開発者はコードを記述する必要がなくなり、データパイプラインの設計に専念できます。それとともに、Altusはクラスターの管理と運用に対応します。

AltusとTalendを使用する

このソリューションについて、さらに詳しく見ていきましょう。Altusの機能を活用して、クラウドでのビッグデータアプリケーションの実行を管理・監視する方法について、説明します。

前述のとおり、AltusはAWS上で実行されます。つまり、Altusにより展開されたクラスターに対して実行されるジョブは、S3オブジェクトストアのデータを使用できます。 構成されたサービスでは、ユーザーのAWS認証情報が使用されます。 たとえば、Altusは、ユーザーが定義した構成に基づいて、Sparkクラスターのプロビジョニングを実行できます。 注意:クラスターは一時的なものです。したがって、データの格納場所を管理する必要があり、また、ジョブの実行ごとにIPアドレスが変わることを考慮する必要もあります。

Cloudera Altusでは、クラスターのセットアップ・構成及びユーザーアカウントの管理のために、管理コンソールとコマンドラインインターフェイスが提供されます。 FTalendユーザーは、Talend Studioを使用するだけでAltusと連動できます。TalendとAltusのシームレスな統合により、Talend Studioで任意の構成(ワーカーノードの数、Amazonインスタンスのタイプ、AWS S3バケットの場所等)を入力するだけで、新しいCloudera Altusクラスターのプロビジョニングを簡単に実行できます。

ジョブの準備が整ったら、Talend StudioからCloudera Altusにジョブを送信します。ジョブの実行はAltusのコンソールで監視でき、処理されたデータはS3に直接保存されます。

AltusでのSAPデータの分析

まず、Altusのコンソールで、すでに展開されているTalendジョブを表示できます。Altus環境には、AWSのリソース(使用しているリージョン等)がカプセル化されています。 たとえば、開発、テスト、本番といった必要な環境を、必要な数だけ使用できます。

クラスターの構成は、AWSの認証情報を入力するだけです。 Altusは、AWSのクロスアカウントアクセスロールを利用して信頼関係を確立し、ユーザーアカウント内でアクションを実行します。

ここに示す単純な例では、大規模な顧客データを集計して、月末の連結収益を計算しています。

Talendでは、次の2つのジョブを作成する必要があります。

  1. SAPからデータを抽出し、Amazon S3にロードする
  2. Cloudera AltusでSparkジョブを実行し、SAPデータを集計する

最初のジョブは、ローカルのSAPインスタンスからデータを取得し、クラウドのS3に移します。これはCloudera Altusを使用するための前提条件となります。 注意:このような取り込みジョブの設計と実行のオーケストレーションは、Talend Integration Cloudを使用して簡単に実行できます。

2番目のジョブはAltusを利用します。最初のジョブでAmazon S3バケットに格納されたデータを、Altusによって展開されたSparkクラスターを使用して処理します。

技術的な観点では、Talendは、開発者がジョブを設計するための一連のグラフィカルコンポーネントを提供しています。 ジョブは、Cloudera Altus APIを介して、Altusクラスターでネイティブに実行されるSparkプログラムに変換されます。 ユーザーがS3に保存したSparkプログラムは、SparkクラスターでAltusにより実行されます。 Altusクラスターを使用するとき、スピンアップされたAmazonインスタンスは処理が完了するとすぐに終了し、ジョブで処理されたデータだけがS3バケットに残されます。

ジョブが送信されると、Cloudera Altusコンソールでジョブを監視できます。 実行中のジョブのタイプ、アクティビティログ、ジョブのステータスも確認できます。  Cloudera Managerのコンソールでは、その他の監視機能も提供されます。

ジョブの完了後は、出力されたファイルがS3バケットに正常に作成されたかどうかを、AWSマネジメントコンソールで確認できます。

その後、Altusはクラスターを終了し、全てのリソースを消去します。処理が終了した全てのAWSインスタンスは、Altusで確実にシャットダウンされ、終了します。 トラブルシューティングと監査のために、テクニカルログもS3に保存されるので、一時的なクラスターの監査にも対応しています。

TalendとCloudera Altusの連携を活用すべき理由

  • • TalendとCloudera Altusを使用することで、ビッグデータや機械学習のワークロードをクラウドに簡単に拡張して自動化でき、さらに従量制モデルによりコストを削減できます。
  • • 開発者は、Talend Studioでジョブを作成してテストするだけでAltusに直接展開できるので、統合ジョブの構築を迅速にかつ容易に実行できます
  • • データサイエンティストにとっても、デスクトップから臨時プロジェクト用クラスターをすぐにスピンアップできることや従量制モデルであることは、大きなメリットとなると思います。

詳細は、TalendソリューションのCloudera Altusとの統合のページをご覧ください。

Share

Leave a comment

コメントを追加

More information?