SparkとHadoopをTalendで活用

統合処理を加速する高速エンジン

Hadoop上のApache Sparkが解き放つデータ処理のスピードとスケーラビリティは、ビッグデータへの期待を確信に近づけます。Talend Big Dataには、これらを活用するための基盤機能が備わっています。

ビッグデータには大きなストレージと高速処理エンジンが必須

Hadoopは、可能な限りの大量データの収集と保管・管理を可能としました。Sparkは、スピードとスケーラビリティを解放してビッグデータを処理しました。Talendは、1つのデータ統合基盤でこれら革新的なテクノロジーを意思決定支援アプリケーションやツールに接続して全ての業界に変化と前進をもたらします。

 

 

1つの統合ソフトウェアであらゆる接続を実現

Talendは、Apache SparkとHadoop上で構築された最初のビッグデータ統合基盤です。Talend Studioでは、GUIツールやウィザードによってネイティブコードが生成されるため、Apache Spark、Sparkストリーミング、Apache Hadoop、NoSQLデータベースの運用を今すぐ開始できます。

  • Sparkを使用したTalendのビッグデータジョブは、MapReduceの5倍の速さで処理結果をリアルタイムに提供します。
  • Talendで最適化されたコネクターとコンポーネントは、インメモリ分析機能、機械学習、及びキャッシングコンポーネントを組み合わせてSparkを手動調整することなく、高いパフォーマンスを発揮するジョブを実現します。
  • Talendのビジュアルな開発環境を使用すると、ハンドコーディングよりも短期間でSparkジョブを作成して、Hadoop、スタンドアローン、またはクラウド環境上で実行できます。
  • Talendではボタン1つでMapReduceジョブをSparkに変換できます。
* TPC-Hの統合処理ベンチマークにより実証済み

 

 

Hadoop上のSparkに最適化して処理性能とスケーラビリティを実現

Talendは、ビッグデータやIoTが要求するパフォーマンスとスケーラビリティを実現するSparkの性能を最適化したSparkネイティブコードを生成します。

  • 分散コンピューティングの最適な管理:パフォーマンス向上のための事前パーティショニング
  • 比類なきパフォーマンスを発揮してソースから直接、大規模なデータを並列ストリーミング処理で取得し、カラム指向ストレージの圧縮されたデータをメモリに保持して再利用
  • 大規模なメッセージングシステムのエンドツーエンド分散ソリューションに対して、KafkaのコネクターとTalendのコネクターを使ってメッセージングとバッチを組み合わせ
  • Sparkネイティブである新しいカテゴリのJDBCコネクターにより、パーティションパラレル処理を通してRDBMSからのデータ取得が可能
  • インメモリのウィンドウ処理で指定間隔にわたるデータのルックアップ参照をサポート

 

 

Spark機械学習ライブラリを最大限に活用

Sparkは、バッチとストリーミングを1つのランタイムに組み合わせることができます。Talendは、1つのツールとコードベースを使ってバッチ及びリアルタイムアプリケーションを構築します。構築の際には、高速メッセージング、リアルタイムによるデータ取得や処理、高速なNoSQL接続機能を使用します。

  • 履歴データに、リアルタイムのクリックストリームや地理情報、センサーデータを組み合わせることが可能
  • Talendは、Sparkの機械学習ライブラリを活用してインテリジェントなデータパイプラインの構築を実現し、リアルタイムデータとバッチデータを同時にリアルタイム分析に役立てることが可能
  • ビルド済みのコンポーネントが、ロジスティック回帰と線形回帰、画像分類、テキスト分析、決定木の分類、勾配ブースティング木、ランダムフォレスト、ALS、ナイーブベイズ、及びK-Meansなどのクラスタアルゴリズムのために、Spark機械学習ライブラリを活用します
  • 統合処理デベロッパーやデータサイエンティストは、適切なトラッキング機能とガバナンスを備えた1つのツールであらゆる処理を行い、レコメンドや顧客セグメンテーション、予測、分類、回帰分析などに役立つSparkベースのリアルタイム分析モデルを作成できます
  • Talendの継続的インテグレーション機能は、短時間で高頻度の繰返し処理を行い、データについての学習を深めていきます

 

 

Sparkを最適に稼働させるため常に最新のHadoopディストリビューションをサポートします

Talendは、最新のHadoopディストリビューションをサポートする唯一のデータ統合です。TalendのネイティブSparkコネクターは、外部ソースからSparkへのデータフィードを最適化するため、データを取込み、並列にロードして、データの活用を加速します。

 

 

一般的な市販のハードウェアで稼動し、既存のHadoopクラスターへデプロイ可能です。

Talend Studioを使うことで、伸縮自在なAWS EMRクラスターをジョブ内で制御可能です。

クラウド環境では、Google、Amazon、IBM、Oracle、MS AzureにSpark処理を展開可能です。

100を超えるSpark専用のドラッグ&ドロップコンポーネントが使用できます。

データトラッキングとCloudera NavigatorとHortonworks Atlasのセキュリティポリシーを踏襲可能です。

 

 

X