Talend Data Streamsの紹介:誰もが使えるセルフサービスのストリーミングデータ統合

Talend Data Streamsの紹介:誰もが使えるセルフサービスのストリーミングデータ統合

  • Shiyi Gu
    Shiyi Gu is the Product Marketing Manager for Big Data at Talend. Shiyi brings her expertise in Data Integration, Big Data and NoSQL, and is passionate about open source technologies. She loves helping customers connect the dots between technology and business value.

Talend Data Streamsは、Apache Beamによる比類ない移植性を保ちながら、ストリーミングデータ統合を数分で実行する、まったく新しいクラウドネイティブなアプリケーションです。

<<<<AWS 向けTalend Data Streamsを今すぐダウンロード>>>>

Talend Data Streamsを使用する意義

今日、企業が直面している最大の課題の1つは、多様なストリーミングに対応しながら、ソーシャルメディア、Web、センサー、クラウドなどあらゆるところから集まる新しいタイプのデータを処理することです。 企業は、リアルタイムデータによって抜本的な変化が起きることがわかってはいますが、実際に対応するには困難が待ち受けています。

IoTデータの場合、モノ」に接続されたセンサーやインターネットからデータが常時発生し、データのストリームは止まることなく流れ続けます。 データには開始や終了がないので、典型的なバッチ形式によるデータの取り込みや処理は時代遅れな手法です。

デバイスが多様になり、さらに多種のデータフォーマットが混在しています。たとえば、1基の風力タービンには、油量、タワーの位置と揺れ、ブレードの圧力、温度などのデータを監視/収集するために数百ものセンサーが設置されます。 これらのセンサーは、ファームウェアがそれぞれ異なったり、それぞれ別のメーカー製であるかもしれません。 IoTデバイスには標準となる仕様がないことがよくあります。 また、多様なデバイスを組み合わせるためにデータのスキーマが予期せず変更されることがあり、データパイプラインが簡単に破損する可能性があります。 この問題を乗り越えたうえで、IT部門はビジネスオーナーにデータを提供しなければなりません。

データサイエンティストを対象とした最近の調査によると、35%を超えるデータサイエンティストが、データの入手が不可能である点を報告しており、データアクセスが難しいということが、データサイエンティストにとって最大の課題となっています。1多くのビジネスユーザーも同じ状況にあり、IT部門が対応できない場合には、彼ら自身で使用が可能な方法で、独自にクラウドアプリケーションやデータソースをアドホックに使用します。

Talend Data Streamsによる問題解決

このようなシナリオが繰り返される中で、既存/将来のお客様の問題解決を支援するためにTalendが構築したのが、Talend Data Streamsです。これがどのようなものか、以下に説明します。

Talend Data Streamsは、ストリーミングデータの統合を迅速かつ簡単にし、利用しやすくするセルフサービスのWeb UIです。データエンジニアだけでなく、データサイエンティスト、データアナリスト、その他のアドホックインテグレーターも、データを簡単に収集して利用できるようになります。

IT部門とビジネス部門のチーム間の隔たりを埋めるように構築されているため、より多くのユーザーがより多くのユースケースで使用できます。

<<<<AWS 向けTalend Data Streamsを今すぐダウンロード>>>>

では、Talend Data Streamsにはどのような特長があるのでしょうか。 Talendユーザーが特に注目すべきいくつかの機能について、以下にご紹介します。

ライブプレビュー

Talend Data Streamsのライブプレビューを使用すると、データ統合を段階的に設計できます。これは、「連続設計」と呼ばれます。

実際の動作を確認するために、パイプライン全体の設計、コンパイル、展開、実行、そしてテストとデバッグを行う必要がなくなりました。これは、データサイエンスでよく使われるREPL(Read-Evaluate-Print Loop)の概念に似ています。 設計プロセスのあらゆる段階におけるリアルタイムのデータの変化を、まったく同じ設計キャンバスで確認できるのです。これによって開発時間が大幅に短くなり、設計サイクルの短縮につながります。

スキーマレス設計

Talend Data Streamsは完全にスキーマレスであるため、 設計時間と実行時間の両方でメリットがあります。

設計者は、動的に検出されるスキーマを任意に適用できるので、パイプラインをより簡単に作成/調整できます。 また、スキーマの変更に対して、パイプラインはより高い復元力を持ちます。 たとえば、メッセージキューからのストリーミングでは、センサーやマシンのような複数のメッセージ構造が共存することがあります。 スキーマレス設計によって、データバリアントと同様に多くのパイプラインを作成するのではなく、データ取り込み時にパイプラインが複数のデータバリアントに自動的に適応できます。 

Apache Beamによる比類ない移植性

ビッグデータのリーダーであり続けているTalendは、オープンソースのアプローチを採用しています。これによってお客様は、それぞれに最善のデータフレームワークを選択できるとともに、将来さらに優れたフレームワークが登場した際にも容易に移行できます。MapReduceからSparkへのコードジェネレーターの変更は、その典型的な例です。 そして今回、Apache Beamの採用によって、このモデルがまったく新しいレベルに進化しています。

Apache Beamは、data Artisans、PayPalなどが主導するオープンソースフレームワークです。 抽象化レイヤーのApache Beamは、移植可能なデータパイプラインフレームワークを提供し、 設計とランタイムを分離して、一意のデータパイプラインのセマンティクスでバッチとストリーミングを融合します。 BApache Beamを採用するTalend Data Streamsは、比類のない移植性をお客様に提供します。 [[Apache Beamの詳細については、こちらをクリック]]

したがって、制限されたソース(SQLクエリなど)でも制限されていないソース(メッセージキューなど)でも、同じパイプラインを接続するだけで、データソースに応じてバッチパイプラインまたはストリームパイプラインとして動作します。さらに、データが置かれているクラウドプラットフォームでネイティブに実行するよう選択できます。「一度設計して、あらゆる場所で実行」を真の意味で達成し、複数のクラウドにわたる移植性を可能にします。

組み込みのPythonコンポーネント

最後の重要ポイントとして、私たちはTalend Data Streamsをデータサイエンティストとコーダーのコミュニティに受け入れられるアプリにしたいと考えました。 そのため、Pythonコンポーネントを組み込むことで、スクリプトやコードにPythonを使用して変換をカスタマイズできるようにしました。

ITとビジネスのギャップを埋め、データをさらに活用する

Talend Data Streamsの特に優れた特長は、これがスタンドアロンアプリでもシングルポイントソリューションでもなく、 Talend Data Fabricプラットフォームの一部である点です。したがって、組織間の壁を取り払い、今まで以上のコラボレーションを実現し、信頼できるデータを提供し、チームスポーツ型のデータ活用を推進できます。では、どのようにこれが可能になるのでしょうか。

すべてのデータパイプライン、データセット、メタデータを、Talendプラットフォーム全体で共有したり、他のアプリケーションと共有したりできます。 これは、データの再利用性を劇的に向上させるのに役立つだけでなく、ITチームとビジネスチームを連携させ、コラボレーションによるデータ管理とガバナンスの強化を実現します。

データサイエンティストなどのアドホックインテグレーターの場合、ユーザーはIT部門に常に頼らなくとも必要なデータをより簡単に取り込むことができます。

もちろん、IT部門はTalend Data Fabricのほかのすべてのメリットを利用してデータ使用を管理できるので、監査やプライバシー/セキュリティ/データ品質の管理などが容易です。

AWS Marketplaceで、無償版を提供しています。AWSアカウントをお持ちの方は、今すぐに無料でソフトウェアを導入できます。 製品機能の詳細は、https://www.talend.com/products/data-streams/data-streams-free-edition/をご覧ください。

今すぐスタート:www.talend.com/datastreams-aws/

Source:

  1. The State of Data Science & Machine Learning 2017 https://www.kaggle.com/surveys/2017

ディスカッションに参加

0 Comments

コメントを残す

Your email address will not be published. Required fields are marked *