Talend Data Streamsの紹介:誰もが使えるセルフサービスのストリーミングデータ統合

Talend Data Streamsの紹介:誰もが使えるセルフサービスのストリーミングデータ統合

Talend Data Streamsは、Apache Beamによる比類ない移植性を保ちながら、ストリーミングデータ統合を数分で実行する、まったく新しいクラウドネイティブなアプリケーションです。

<<<<AWS 向けTalend Data Streamsを今すぐダウンロード>>>>

Talend Data Streamsを使用する意義

今日、企業が直面している最大の課題の1つは、多様なストリーミングに対応しながら、ソーシャルメディア、Web、センサー、クラウドなどあらゆるところから集まる新しいタイプのデータを処理することです。 企業は、リアルタイムデータによって抜本的な変化が起きることがわかってはいますが、実際に対応するには困難が待ち受けています。

IoTデータの場合、モノ」に接続されたセンサーやインターネットからデータが常時発生し、データのストリームは止まることなく流れ続けます。 データには開始や終了がないので、典型的なバッチ形式によるデータの取り込みや処理は時代遅れな手法です。

デバイスが多様になり、さらに多種のデータフォーマットが混在しています。たとえば、1基の風力タービンには、油量、タワーの位置と揺れ、ブレードの圧力、温度などのデータを監視/収集するために数百ものセンサーが設置されます。 これらのセンサーは、ファームウェアがそれぞれ異なったり、それぞれ別のメーカー製であるかもしれません。 IoTデバイスには標準となる仕様がないことがよくあります。 また、多様なデバイスを組み合わせるためにデータのスキーマが予期せず変更されることがあり、データパイプラインが簡単に破損する可能性があります。 この問題を乗り越えたうえで、IT部門はビジネスオーナーにデータを提供しなければなりません。

データサイエンティストを対象とした最近の調査によると、35%を超えるデータサイエンティストが、データの入手が不可能である点を報告しており、データアクセスが難しいということが、データサイエンティストにとって最大の課題となっています。1多くのビジネスユーザーも同じ状況にあり、IT部門が対応できない場合には、彼ら自身で使用が可能な方法で、独自にクラウドアプリケーションやデータソースをアドホックに使用します。

Talend Data Streamsによる問題解決

このようなシナリオが繰り返される中で、既存/将来のお客様の問題解決を支援するためにTalendが構築したのが、Talend Data Streamsです。これがどのようなものか、以下に説明します。

Talend Data Streamsは、ストリーミングデータの統合を迅速かつ簡単にし、利用しやすくするセルフサービスのWeb UIです。データエンジニアだけでなく、データサイエンティスト、データアナリスト、その他のアドホックインテグレーターも、データを簡単に収集して利用できるようになります。

IT部門とビジネス部門のチーム間の隔たりを埋めるように構築されているため、より多くのユーザーがより多くのユースケースで使用できます。

<<<<AWS 向けTalend Data Streamsを今すぐダウンロード>>>>

では、Talend Data Streamsにはどのような特長があるのでしょうか。 Talendユーザーが特に注目すべきいくつかの機能について、以下にご紹介します。

ライブプレビュー

Talend Data Streamsのライブプレビューを使用すると、データ統合を段階的に設計できます。これは、「連続設計」と呼ばれます。

実際の動作を確認するために、パイプライン全体の設計、コンパイル、展開、実行、そしてテストとデバッグを行う必要がなくなりました。これは、データサイエンスでよく使われるREPL(Read-Evaluate-Print Loop)の概念に似ています。 設計プロセスのあらゆる段階におけるリアルタイムのデータの変化を、まったく同じ設計キャンバスで確認できるのです。これによって開発時間が大幅に短くなり、設計サイクルの短縮につながります。

スキーマレス設計

Talend Data Streamsは完全にスキーマレスであるため、 設計時間と実行時間の両方でメリットがあります。

設計者は、動的に検出されるスキーマを任意に適用できるので、パイプラインをより簡単に作成/調整できます。 また、スキーマの変更に対して、パイプラインはより高い復元力を持ちます。 たとえば、メッセージキューからのストリーミングでは、センサーやマシンのような複数のメッセージ構造が共存することがあります。 スキーマレス設計によって、データバリアントと同様に多くのパイプラインを作成するのではなく、データ取り込み時にパイプラインが複数のデータバリアントに自動的に適応できます。 

Apache Beamによる比類ない移植性

ビッグデータのリーダーであり続けているTalendは、オープンソースのアプローチを採用しています。これによってお客様は、それぞれに最善のデータフレームワークを選択できるとともに、将来さらに優れたフレームワークが登場した際にも容易に移行できます。MapReduceからSparkへのコードジェネレーターの変更は、その典型的な例です。 そして今回、Apache Beamの採用によって、このモデルがまったく新しいレベルに進化しています。

Apache Beamは、data Artisans、PayPalなどが主導するオープンソースフレームワークです。 抽象化レイヤーのApache Beamは、移植可能なデータパイプラインフレームワークを提供し、 設計とランタイムを分離して、一意のデータパイプラインのセマンティクスでバッチとストリーミングを融合します。 BApache Beamを採用するTalend Data Streamsは、比類のない移植性をお客様に提供します。 [[Apache Beamの詳細については、こちらをクリック]]

したがって、制限されたソース(SQLクエリなど)でも制限されていないソース(メッセージキューなど)でも、同じパイプラインを接続するだけで、データソースに応じてバッチパイプラインまたはストリームパイプラインとして動作します。さらに、データが置かれているクラウドプラットフォームでネイティブに実行するよう選択できます。「一度設計して、あらゆる場所で実行」を真の意味で達成し、複数のクラウドにわたる移植性を可能にします。

組み込みのPythonコンポーネント

最後の重要ポイントとして、私たちはTalend Data Streamsをデータサイエンティストとコーダーのコミュニティに受け入れられるアプリにしたいと考えました。 そのため、Pythonコンポーネントを組み込むことで、スクリプトやコードにPythonを使用して変換をカスタマイズできるようにしました。

ITとビジネスのギャップを埋め、データをさらに活用する

Talend Data Streamsの特に優れた特長は、これがスタンドアロンアプリでもシングルポイントソリューションでもなく、 Talend Data Fabricプラットフォームの一部である点です。したがって、組織間の壁を取り払い、今まで以上のコラボレーションを実現し、信頼できるデータを提供し、チームスポーツ型のデータ活用を推進できます。では、どのようにこれが可能になるのでしょうか。

すべてのデータパイプライン、データセット、メタデータを、Talendプラットフォーム全体で共有したり、他のアプリケーションと共有したりできます。 これは、データの再利用性を劇的に向上させるのに役立つだけでなく、ITチームとビジネスチームを連携させ、コラボレーションによるデータ管理とガバナンスの強化を実現します。

データサイエンティストなどのアドホックインテグレーターの場合、ユーザーはIT部門に常に頼らなくとも必要なデータをより簡単に取り込むことができます。

もちろん、IT部門はTalend Data Fabricのほかのすべてのメリットを利用してデータ使用を管理できるので、監査やプライバシー/セキュリティ/データ品質の管理などが容易です。

AWS Marketplaceで、無償版を提供しています。AWSアカウントをお持ちの方は、今すぐに無料でソフトウェアを導入できます。 製品機能の詳細は、https://www.talend.com/products/data-streams/data-streams-free-edition/をご覧ください。

今すぐスタート:www.talend.com/datastreams-aws/

Source:

  1. The State of Data Science & Machine Learning 2017 https://www.kaggle.com/surveys/2017

ディスカッションに参加

0 Comments

コメントを残す

Your email address will not be published. Required fields are marked *