ETL市場がELTツールにより破壊的影響を受ける理由

調査によると、ビジネスデータの約50%はクラウドに存在しており、現代の企業にとって外部データソースの重要性を示しています。組織は、現在のビジネスの速度に対応して、データを迅速に処理/統合するために、同様に最新のツールを必要としています。最善のELT(抽出、ロード、変換)ツールはこれらのワークロードに対応し、外部または内部を問わず、費用効果が高く、効率的で高性能なデータ統合の手段としてデータウェアハウス分野で信頼を得ています。

多くの組織は、内部リレーショナルデータウェアハウジング用に設計された従来のETL(抽出、変換、読み込み)ツールにとっては大きな負荷となるビッグデータソースの量、種類、速度に対処するために、ELTツールにますます注目しています。ここでは、ETLツールとELTツールの違いを明確にし、ELTツールがデータウェアハウスをどのように強化するかを検討し、ELTツールがデータ統合の将来に及ぼす影響について説明します。

Cloud Data Warehouse Trends for 2019をダウンロードする
今すぐダウンロード

ELTとETLの違い

ELTは、元のソース(Twitterフィード、ERP、CRMなど)から生データを抽出し、ターゲットソース(通常はデータウェアハウスまたはデータレイク)に読み込むプロセスです。他のアプローチとは異なり、ELTではターゲットシステム内でデータを変換するため、物理インフラストラクチャと中間層が削減されます。

ELTツールを従来のETLメソッドの進化と考えると理解しやすくなります。ETLツールは、ソースシステムとターゲットシステムの間に設計された個別のプラットフォームです。ETLツールとELTツールの主な違いは、ETLがターゲットシステムにデータをロードする前にデータを変換するのに対し、ELTはターゲットシステム内でデータを変換することです。この区別は多くのダウンストリームプロセスにとって重要であり、その後のシステムに影響します。

インフラストラクチャとリソース

ETLツールは、データの抽出とターゲットリポジトリへのロードの間にある、中間ステップのための専用プラットフォームです。組織は、データをターゲットシステムに統合するために、これらのツールの購入と保守を任されます。ELTツールは、ターゲットシステムにデータを読み込むためにこの中間ステップを必要とせず、ETLツール内のエンジンとは対照的にターゲットシステムのエンジンで変換が実行されるので、物理インフラストラクチャと専用リソースが少なくて済みます

データのステージング

ETLツールは、データ変換の前のクレンジングとプレパレーションを行うデータステージングのプロセスを担います。ELTを使用すると、データがデータウェアハウス、データレイク、またはクラウドデータストレージに読み込まれた後にデータのステージングが行われるため、効率が向上し、待ち時間が短縮されます。その結果、最善のELTツールの場合は、データ処理の大半がターゲットシステムで行われるため、最初のデータソースに対する要求が少なく、ETLの中間ステップは必要ありません。

パフォーマンス

特に大規模なデータを扱う場合、ELTツールのパフォーマンスはETLツールのパフォーマンスよりもはるかに優れています。ペタバイト規模の大量データは、ETLツールを使用すると、簡単にボトルネックとなってしまう可能性があります。これらのメカニズムは、独自のサーバーとエンジンに依存してデータを変換するためです。さらに、ビッグデータソースに日常的に投入される多様な半構造化/非構造化データにより、変換の複雑さが高まります。ETLのボトルネックは、データウェアハウス内のデータへのアクセスと分析の遅れを大幅に拡大させる可能性があります。

価値実現までの期間

ELTツールを使用すると、ターゲットシステム内でデータを変換することによって、データを実際に分析して処理できるようになる(価値実現)までの時間が短縮されます。データサイエンティストと高度なスキルを持つビジネスアナリストは、最小限のハンドコーディングで読み取りオプションのスキーマを活用して、データをすばやく変換し、分析のために機械学習の手法を使用できます。ETLツールの場合、分析の前にデータウェアハウスの統一スキーマに全データを適合させるといった必要が生じます。そのためのハンドコーディングプロセスによって、速度が低下します。

ETLツールからELTツールへの移行は、ビッグデータ時代の当然の結果です。従来のETLツールは、従来のリレーショナルデータウェアハウジング用に作成されたもので、ほとんどのデータは内部システムから取得され、主として構造化されたものでした。ETLツール専用の計算リソースは、ビッグデータワークロードの規模、バリエーション、低遅延のニーズに対応するように作られたものではありません。これらのツールは、構造化された内部データには引き続き有効ですが、外部ソースから多様な非構造化/半構造化ビッグデータを統合する用途、特にモノのインターネットのような低遅延の用途では、すぐに時代遅れになっていきます。

How to Future Proof Your Integration Strategyをダウンロードする
今すぐダウンロード

ELTによるデータウェアハウジングの改善

データウェアハウスとデータレイクの改善のために最適のELTツールを活用する方法は複数あります。どちらの場合も、ELTツールは分析用のデータの準備に必要な時間を短縮できます。Hadoopなどのデータレイクフレームワークにデータをロードすることにより、組織はデータをステージングおよび変換するために、その内部で処理エンジンを使用できます。Hadoopフレームワークは、非常に高いスケーラビリティを実現するために作成されており、並列処理を活用して計算ジョブを高速化します。したがって、単純にELTを使用してデータレイクをロードする場合、このメソッドを使用して、関係設定でスキーマを統合するために必要な従来のデータモデリング作業を一切行わずに、読み取り時にスキーマを抽出できます。

ELTを使用するデータウェアハウスへのロードは、この手法の多くを利用しています。ただし、変換プロセス中に、データはこれらのリポジトリの統合スキーマに変換されます。また、変換されたデータをHadoopなどのデータレイクから実際のウェアハウス自体にロードする追加のステップがあります。ただし、Hadoopの処理エンジンを変換に活用することのアーキテクチャーおよびインフラストラクチャの利点と同様に、一時的な利点の多くは依然として適用されます。ELTの利点は次を含みます。

  • 合理化されたアーキテクチャー:ELTツールは、Hadoopなどのターゲットシステムの処理能力を活用して、データを使用するための準備に必要なアーキテクチャーを合理化します。処理能力に制限のある中間層はありません。ターゲットシステムは、データのステージングと変換の両方に使用されます。
  • ビッグデータソースの迅速な組み込み:ELTを使用することで、半構造化/非構造化ビッグデータを含む多様なソースをデータウェアハウスやデータレイクに簡単に組み込むことができます。これらのソースは、従来の取り込み/変換の手法では、すぐに使用することは困難です。
  • データサンドボックス:最善のELTツールにより繰り返しもたらされるメリットの1つとして、Hadoopなどのデータストアをサンドボックスとして使用できます。これによりデータサイエンティストは、基礎となるリポジトリのスキーマに従って標準化することなく実験できます。
  • ストレージと処理:ELTツールにより、組織はストレージと処理能力の両方のためにターゲットシステムを使用できます。これにより、これらのリポジトリのROIを最大化でき、これらのツールを使用する正当性を上級マネジメントに対してアピールする際にも役立ちます。

ビジネスインテリジェンスは、依然としてデータウェアハウジングの典型的なユースケースです。最善のELTツールは、いくつかの点でBIを大幅に強化します。CRM/ERPデータをソーシャルメディアデータなどの代替情報で補完するなど、従来の内部ソースと一緒に多数の外部ソースを迅速に組み込むことができます。ELTの手法を使用すると、これらの各データソースを変換のためにHadoopにロードし、データサイエンティストが読み取り時にスキーマを使用して、代替データがビジネスニーズとウェアハウジングスキーマにどのように関係するかを理解できます。これらのソースがウェアハウジングスキーマに適合するように変換されると、ユーザーは顧客の傾向について一層意味のある分析を行うために、より広範なデータに関するレポートを発行できます。

Best Practices Report: Multiplatform Data Architecturesをダウンロードする
今すぐダウンロード

ELTが切り開くデータ統合の未来

概してELTは、今日の企業全体で日常的に使用されているビッグデータの規模、速度などに対応するための魅力的な規範となります。従来のELTの中間層を排除し、最新の処理能力を使用して、データのステージングと変換を基礎となるデータリポジトリにプッシュします。特に従来のETL方法と比較すると、このアプローチによって統合アーキテクチャーが簡素化され、価値実現までの時間が短縮され、ビッグデータを継続的にマイニングして活用するために必要な堅牢なパフォーマンスが提供されます。

ビッグデータと、ますます必要とされる異種混在のコンピューティング環境が重視される今日、タイムリーで持続可能、かつ効果的なデータ統合が当面は組織の最優先事項となります。最終的には、ELTはデータ統合の実装に高い柔軟性を与えることで、この問題を解決します。

ELTの幅広い利点を持つTalend Open Studioは、現在人気のあるビッグデータフレームワークの多くで使用されています。Talend Open Studioをダウンロードして、企業を次のレベルに引き上げるためにELTがいかに役立つかを探ってください。

| 最終更新日時: November 26th, 2019