Pipeline Designerの紹介:データ統合の革新

Pipeline Designerの紹介:データ統合の革新

  • Stephanie Yanaga
    Stephanie Yanaga is a Product Marketing Manager focusing on Talend’s free and open source products. In this role, Stephanie will be involved in the open source product strategy and will also work to ensure the Talend open source community has the resources needed to continue to thrive. Prior to joining the product marketing group in January 2018, Stephanie spent two years in Australia building out Talend’s APAC presence.

Pipeline Designerがリリースされました。この次世代クラウドデータ統合設計環境を使用することで、開発者はデータパイプラインを数分で開発/展開し、バッチとストリーミングのユースケース全体でシームレスに設計し、最新のハイブリッドおよびマルチクラウドテクノロジーでネイティブに拡張できます。

<<今すぐPipeline Designerを試す>>

Talend Cloud Pipeline Designer

あらゆる業界でデータが企業の競争力になっていることは周知の事実です。そして、競争力を維持するために、組織は3つのことを保証する必要があります。

  1. 最高の知見をもたらすデータを残さず収集すること
  2. データに依存するビジネス部門がタイムリーにデータを受け取り、迅速な決定を下すこと
  3. 新しいデータ要件が発生した場合には、拡張および革新できる簡単な手段があること

多数の新しいデータタイプとテクノロジーが出現したことを考えると、これを達成することは非常に困難です。たとえば、今日の企業が直面している大きな課題の1つは、あらゆる種類のストリーミングデータに対応し、ソーシャルメディア、Web、センサー、クラウドなどからあらゆる場所に浸透する新タイプのデータを処理することです。企業は、リアルタイムでデータを処理・提供することがリアルタイムの知見を可能にする革新を起こすと考えていますが、このデータを簡単に収集・変換することは実際には困難です。

たとえば、クリックストリームデータの場合、データはWebサイトから絶えず送られ、データのストリームは止まることなく常に流れています。確定的なデータの「開始」と「停止」に依存するデータの取り込みや処理の典型的バッチアプローチは、ストリーミングデータによって時代遅れとなり、データに対するリアルタイムの反応性が持っている潜在的価値を奪います。たとえば、オンラインショップは、クリックストリームデータに基づいて、Webサイトに対するユーザーのエンゲージメントを把握します。これは、各ユーザーに合致した商品を提示する方法を理解するために不可欠です。利益幅が非常に小さい業界では、市場シェアを獲得するための迅速な意思決定を行うために、顧客の活動と競合他社の価格データをリアルタイムで把握することが不可欠です。

また、さまざまなアプリケーションからのデータに依存している場合、企業のデータ統合ツールはデータフォーマットの変更にうまく対応できず、ソースデータに新しいフィールドが追加されるたびにデータパイプラインが破損する可能性があります。ITがデータの動的な性質に対応できたとしても、データにアクセスする必要があるビジネス部門は、他のビジネスにもデータを提供しなければならない担当者の作業量増大により、実用的な知見を得るまでに何週間も待たなければならない場合があります。

実際、最近のデータサイエンティストの調査では、データサイエンティストの30%以上が、データが利用できないこととデータへのアクセスが困難であるということが最大の課題であると報告しています。また、実用的なデータへのアクセス拡大に対して、市場の要求が高まっており、データサイエンティストに比べてデータエンジニアの求人が4倍に上っている状況にも反映されています。

データエンジニアリングのスキルセット(あらゆる種類のデータに対するアクセス、収集、変換、およびビジネスへのデリバリー)が必要とされており、今日のデータエンジニアは、絶えず変化するデータ環境で活動しながら、これまで以上に生産性を高める必要があります。同時に、アドホックインテグレーターについても、データにアクセスして統合し、ITに依存せずに活動できるように権限を強化する必要があります。

そして最後に、より多くのビジネスがより転機で成果を出すことを要求しているため、データエンジニアとアドホックインテグレータの両方がデータをすぐに統合する必要があり、データ統合ツールはこれらの新しい需要を満たすのに役立つ必要があります。データエンジニアとアドホックインテグレーターには、利用しやすく直感的なだけでなく、日常的に使用する多種多様で大量のデータを処理できる、クラウドネイティブの統合ツールが必要になっています。

途方もない問題に直面しているように感じられるかもしれませんが、心配は無用です。ここまで説明しておきながら、解決策を提示しないわけがありません。

Pipeline Designerの紹介

このようなシナリオが繰り返される中で、既存/将来のお客様の問題解決を支援するためにTalendが構築したのが、このPipeline Designerです。

Pipeline Designerは、クラウドに組み込まれたセルフサービスのWeb UIです。誰もが使いやすいクラウドアプリケーションを期待し、データの量、種類、テクノロジーが一見不可能なペースで増大している今日、より速く、より簡単に、より利用しやすいデータ統合を可能にします。

データエンジニアは、データのクラウドデータウェアハウスへの変換とデリバリー、ストリーミングデータのクラウドデータレイクへの取り込みと処理、SnowflakeAmazon Redshiftへのバルクロードなど、軽量の統合のユースケースに迅速かつ簡単に対処できます。Pipeline Designerの最新のアーキテクチャーにより、ユーザーは、バッチデータとストリーミングデータの両方で作業できます。増加するデータ量やデータフォーマットの変更に対応するためにパイプラインを完全に再構築することを心配する必要もなく、今までにない速度でデータの変換とデリバリーを実現できます。

<<今すぐPipeline Designerを試す>>

Pipeline Designerはどのような特長を備えているのでしょうか。皆さんと特に共有したい主要ポイントを以下に紹介します。

ライブプレビュー

Pipeline Designerのライブプレビュー機能により、継続的なデータ統合設計を行うことができます。データの外観を確認するために、パイプラインを設計、コンパイル、展開、実行する必要がなくなりました。

代わりに、まったく同じ設計キャンバスで、設計プロセスのすべてのステップでデータの変更をリアルタイムで確認できます。パイプライン内の任意のプロセッサーをクリックし、変換前後のデータを確認し、出力データが期待するものに合致していることを確認します。これにより、開発時間が劇的に短縮され、デジタルトランスフォーメーションプロジェクトがスピードアップします。

簡単な例として、以下のようなPythonの変換について、入力と出力を見てみましょう。

スキーマレス設計

スキーマオンリードは、最新のデータ統合のためのデータ統合戦略です。ビッグデータプラットフォーム、メッセージングシステム、NoSQLへのデータのストリーミングなど、多くの場合に構造化されていな受信データを固定のスキーマにマッピングする必要がないため、時間を節約できます。

Pipeline Designerは、スキーマオンリードのサポートを提供し、パイプラインを構築する前にスキーマを定義する必要を排除し、スキーマが変更されたときにパイプラインの復元力を維持します。Pipeline Designerで接続またはデータセットを定義する場合、スキーマの強力な定義は存在しません。データの構造は、パイプラインが実行される時点で推測(データを収集し、その構造を推測)されます。ソーススキーマに変更がある場合、次の実行時に、パイプラインは変更を考慮に入れて適応します。これは、スキーマが動的に検出されるため、データの操作をすぐに開始し、データソースを「オンザフライ」で追加できることを意味します。要するに、「硬直的」なメタデータ定義と比較して、より高い復元力と柔軟性をもたらします。

比類のない移植性であらゆるデータを統合

Talendは、「将来に対応」する開発を長年にわたって主導しています。パイプラインをモデル化し、それを実行するプラットフォーム(オンプレミス、クラウド、またはビッグデータ)を選択できます。また、要件が変更された場合は、別のプラットフォームを選択するだけで済みます。たとえば、コードジェネレーターをMapReduceからSparkに変更した場合は、数回クリックするだけで、最適化されたネイティブのSparkを実行できるようにジョブを変更できます。しかも、今回はさらに強力な機能を利用できるようになりました。オープンソースプロジェクトのApache Beamに基づいて構築することによって、Talendは設計とランタイムを切り離すことに成功しました。つまり、パイプラインを実行する処理エンジンを考慮することなく、パイプラインを構築できます。

さらに、ストリーミングとバッチパイプラインの両方を同じパレットで設計できます。

したがって、SQLクエリなどの境界のあるソース、またはメッセージキューなどの境界のないソースに同じパイプラインを接続でき、データのソースに基づいて、バッチパイプラインまたはストリームパイプラインとして機能します。実行時には、データが置かれたクラウドプラットフォームでネイティブに実行するよう選択でき、さらに究極のスケーラビリティのためにEMRで実行することも選択できます。Pipeline Designerは、真の意味で「一度設計すればどこでも実行可能」であり、複数のクラウドでスケーラブルな方法で実行できます。

組み込みのPythonコンポーネント

Pythonは最も急速に成長しているプログラミング言語であり、データエンジニアが一般的に使用するプログラミング言語でもあります。したがってTalendは、Pipeline Designerでユーザーが自身のPythonスキルを活用し、ツールを拡張して必要なカスタム変換に対応できるようにすることを目指しました。そのためPipeline Designerは、カスタマイズ可能な変換のためにPythonをスクリプト化するためのPythonコンポーネントを埋め込んでいます。

データ活用をさらに推進

Pipeline Designerのさらに良い点は、スタンドアロンアプリケーションでもシングルポイントソリューションでもないことです。Talend Data Fabricプラットフォームの一部であり、データバリューチェーンの複雑な側面をエンドツーエンドで解決します。Data Fabricを使用することで、システム全体でデータを収集し、それを管理して適切な使用を確保し、新しいフォーマットに変換し、品質を向上させ、社内外のステークホルダーと共有できます。

Pipeline Designerは、Talend Cloudの他のソリューションと同じようにTalend Management Consoleによって管理されます。この継続性により、ITはTalendプラットフォームを完全に把握できるようになり、Talend Cloudのような統合プラットフォームからのみ得られる監視とガバナンスを提供します。そしてもちろん、ITはデータ使用の制御を含むTalend Data Fabricの他のすべてのメリットを得るので、プライバシー、セキュリティ、およびデータ品質を簡単に監査・保証できます。

Talendを初めて使用するユーザーは、ビジネス全体にわたる包括的データ管理の文化をサポートするための、相互に連携するように設計された専用アプリケーションスイートがあることを理解したうえで、Pipeline Designerの使用を開始できます。Talendは、皆さんのデータジャーニーを通じてサポートし、ニーズ増大に対処します。

Pipeline Designerを使用して軽量な統合を容易にする方法を確認するために、ダウンロードなしで使用できる無償トライアルを提供しています。製品ページで製品機能の詳細を確認できます。14日間の無償トライアルもご利用ください!

ディスカッションに参加

0 Comments

コメントを残す

Your email address will not be published. Required fields are marked *