月別: July 2017

TalendとApache Beamを使用したデータレイクでのデータプレパレーション

  最近、Apache Beam(バージョン2.0)の最初の安定版が最近リリースされたことは、皆さんもすでにご存じかと思います。 Apache Beamは、バッチ及びストリーミングのデータ処理用に設計された高度な統一プログラミングモデルです。非常に強力でポータブルであることから、Talendでも当初から積極的にプロジェクトに貢献してきました。 Talendは最近、Apache BeamをTalend Data Preparationに統合しました。このリリースの新機能については、François Lacasがブログで紹介しているので、ぜひお読みください。ここでは、Apache BeamがTalend Data Preparation製品で実際にどのように動作するのかを説明します。 Apache Beam入門 Apache Beamとは、根本的に、ユーザーが統合パターンと実際のランタイム環境から抽象レイヤーを提供する方法です。この抽象化レイヤーによりBeam SDKを使用したデータ統合プロセスのコーディングが可能になります。プロセスを実行するには、必要な処理アーキテクチャーやランタイム向けにBeamランナーと呼ばれるものを選択します。 これは、Spark、Google Data Flow、Flink等、将来データを処理するために使用する任意のものを選ぶことができます。Beamはさらに、バッチとストリーミングの両方のワークロードに使用できます。Beamは接続先に応じて使用可能なランナーのタイプを認識するということです。コミュニティは、さまざまなプラットフォーム向けに多様なランナーを構築しています。これによって、統合コードからランタイム環境への真の抽象化が実現します。 Beamでデータプレパレーションを強化 次のビデオでは、Talend Data Preparationの2つの主要機能を紹介しています。後半ではBeamの活用を取り上げています。 HDFSファイルシステムから直接データを読み取る 完全なデータセットをエクスポートする、またはHDFSの別の場所に書き戻す HDFSからParquetファイルを読み取るため、Talendの新しいコンポーネントカタログフレームワークとSDKを使用しています。ビデオで使用している例では、Parquetにフォーマットされたファイルがメタファイルとデータファイルから成るマルチパートファイルである点に注目してください。Talend Data Preparationはメタデータを読み取り、列ヘッダー名をツールに取り込むことができるようになりました。また、複数のファイル部分全てからサンプリングを行い、データセット全体の品質の高いサンプルをユーザーに提供できます。この操作はビデオで確認できます。 ビデオの後半では、データをHDFSにエクスポートして戻すという素晴らしい機能を紹介しています。背景ではTalend Data Preparationサーバーが、完全なエンドツーエンドのSpark処理ジョブを構築し、そのSparkジョブを前述のとおりにBeamとSparkランナーを使用してクラスターに送信しています。 Talend Data Preparationツールで「エクスポート」を選択し、完全なデータセットをHDFSへエクスポートするよう選択すると、インポートプロセス(コンポーネントカタログ)からの接続情報、準備ステップ(データプレパレーションに必要な変更の「レシピ」)、エクスポート先となるSparkクラスターの場所がエクスポートされます。Talend Data Preparationサーバーはこの情報を全てフローランナーに送信し、フローランナーは全ての情報を取得してApache Beamコードに変換します。 その後、Apache BeamコードがSparkジョブサーバーに送信されます。これは、ユーザーのIT管理チームが設定した適切なセキュリティとアクセス権を使用してSparkクラスターに接続するように構成されたBeam Sparkランナーです。 Sparkジョブサーバー、またはBeamランナーは、ジョブを(ネイティブのSparkコードとして)クラスターのリソースマネージャーに送信し、クラスター内で必要に応じて実行します。Sparkジョブサーバーは、リソースマネージャーのジョブのステータスを監視し、終了時に完了ステータスを報告します。Talend Data Preparationサーバーは、実行したプレパレーションのエクスポート履歴ダイアログで完了ステータスを提供します。 現在のテクノロジーに対応し、将来に備える このように、Talendはテクノロジーの最先端にあります。ユーザーは、データプレパレーション処理のバックエンドでApache Beamを使用することによって、準備の実行のために使用するソリューションを選択できます。これは、現在はApache Sparkであったとしても、将来はFlinkまたはApexかもしれません。Apache Beamの素晴らしさは選択肢の一つです。どのような処理テクノロジーを選ぶ場合でも、Talend Data Preparationによって、最新データツールを使用するデータの処理とクレンジングが可能になるのです。


Talend CTOからの助言:マルチクラウド環境で成功するための戦略

  6月末にTalend Summer ’17リリースが正式に公開されました。これは、Talendの過去最大のクラウドリリースです。AWS向けにすでに提供しているEMR、Redshift、Aurora等の堅牢なコネクターに加えて、今回のリリースでは、Google Cloud PlatformとMicrosoft Azure用の包括的なコネクターセットを提供しており、データウェアハウジング、Hadoop、NoSQL、ストレージ、及びデータレイク分野のサービスが含まれています。 Talend Summer ’17リリースの詳細は、こちらをご覧ください。 Talendのお客様の中には、地理的に分散したマルチクラウド環境を管理する戦略の策定について、差し迫った問題を抱えている方もいらっしゃいます。マルチクラウド環境は、社内の各部門がそれぞれに異なるベンダープラットフォームを利用してクラウドの使用を開始し、そのまま既存環境を引き継ぐ形で構築されてきました。一見すると、ITリーダーにとってマルチクラウドの世界は、管理上の問題に過ぎないかもしれません。しかし実際には、多くのチャンスと課題の両方が内在しています。グローバル企業としてのアプローチでクラウド管理体制を構築するには、これらのチャンスと課題を慎重に検討する必要があります。今回はこのような状況を受けて、マルチクラウドの世界での成功を目指す企業のベストプラクティスについて、TalendのCTO、Laurent Brideから豊富な経験に基づく提言をお届けします。 以下に紹介する3つの短いビデオクリップでは、マルチクラウド環境を管理する上で、今日のITリーダーが直面している3つの重要な問題について解説しています。 マルチクラウド環境を維持するうえでの3つのメリットとは? マルチクラウド環境によって顧客が抱える3つの課題とは?  地理的に分散したマルチクラウド環境を管理する際に考慮すべき3つの重要事項とは? マルチクラウドのメリット 顧客は、マルチクラウド環境(既存環境の継承か、新規構築かを問わず)から最大の価値を引き出すために、ベンダーロックインを回避しつつ、それぞれのクラウドベンダーが得意とするサービスを活用することができます。例えば、あるクラウドベンダーはストレージ等のイノベーションに強く、別のベンダーはデータウェアハウジング、または人工知能の専門知識に強い、といったケースです。 複数のクラウドプラットフォームを利用することで、ストレージやコンピューティング等の市販のローエンドのサービスから、データベースやビッグデータ等のハイエンドサービス等、各ベンダーが提供する最高のサービスを選択できます。クラウドベンダーは、タイムコミットメントとオープン市場のスポット価格をベースに、各サービスを様々な価格で提供しています。したがって、顧客は、最低価格で最高のパフォーマンスを引き出し、そのコストを時間で計画し、ビジネス要件の変化に応じてベンダーを切り替えることができます。 マルチクラウド環境で考慮すべき課題 確かにマルチクラウド環境からはさまざまなメリットを得られますが、その一方で、予期し、計画すべき課題も数多く存在します。 多くの組織は、各クラウドベンダーが特に適しているシナリオを見極めようとしています。 たとえば、機械学習や人工知能では、GoogleがTensor Flowによって大きな進歩を遂げており、特にディープラーニングで強みを持っています。 パブリッククラウドとプライベートクラウドの両方で高性能なサービスを求める組織にとっては、AWSがVPC(仮想プライベートクラウド)とパブリッククラウド間のシームレスなワークロードの移動を可能にします。 さらに、オンプレミスへの投資と新しいクラウドへの投資の統合については(特にオンプレミス投資でのMicrosoftの比重が大きい場合)、まぎれもなくMicrosoft Azureが選択肢となります。Microsoftは、オンプレミスのビジネスアプリケーションスイートと緊密に統合されたクラウドファースト戦略を実施する顧客を支援すべく継続的に取り組んでいます。 その他にも、マルチクラウドソリューションには、ガバナンスとセキュリティを満たすうえでの課題も存在します。企業は、急速に変化するビジネスプロセスが統合にどのように影響するかを細部にわたり検討し、イベント、ID管理、コンプライアンスを追跡・監査するための堅牢なフレームワークを実装する必要があります。クラウドで膨大なデータが生成されている現在、メタデータの整合性を確保することは、全ての企業IT部門の最重要タスクの1つとなっています。 地理的な場所と将来のビジネス拡大 グローバル企業のIT責任者は、複数地域の対応という課題にも取り組まなければなりません。地理的に分散されたマルチクラウド戦略を構築するには、クラウドデータが存在するさまざまな国の、複数の規則や規制に準拠する必要があります。たとえば、欧州では、データプライバシーを重視するGDPRの規制があり、違反に対して厳しい罰金が課せられます。また、アプリケーション性能の高速化に対する期待も生まれています。遅延の短縮のために、地域の最適なクラウドサービスプロバイダーを選択すれば、データの格納場所でデータを最適に処理できるようになります。また、データ移動を考慮して、実際のコンピューティングは、データの格納場所のそばで行うようにしましょう。