分析のためのETL

Extraction, Transform and Load (ETL) help in feeding data warehouse or business intelligence systems

ETL(抽出、変換、ロード)処理は、ビジネスインテリジェンス基盤(BI基盤)に関するデータ統合の中で最も重要で付加価値の高いプロセスです。BI基盤を使用するユーザにはほとんどわからないかもしれませんが、ETLは、全ての業務システムからデータを取得し、分析/レポートツールの前処理 を行います。実際、BI基盤全体における情報の精度と決められた時間にサービスが提供できるかどうかは、ETLに依存しています。

  • 抽出 業務アプリケーションやデータベース(ERP、CRM、RDBMS、ファイルなど)からデータを抽出。
  • 変換 ソース/ターゲットシステム間で、抽出したデータの調整、即ち、計算/文字列解析を実行する、外部を参照して得た情報で強化する、ターゲットシステ ム(第三正規形、スタースキーマ、緩やかに変化するディメンジョン等)に合わせてフォーマットを一致させる、などの処理を行います。
  • ロード 上記データ統合処理で作成したデータを様々なビジネスインテリジェンス(BI)ソフトウェア、例えば、データウェアハウス、エンタープライズデータウェアハウス、データマート、オンライン分析処理(OLAP)アプリケーションまたは"キューブ"、などにロードします。

 

障害:多様で変化が早いデータの管理

効率的で信頼性の高いETL処理を作り上げるには多くの課題があります。

  • データ量が、急激に増加すると、ETL処理は、粒度の小さいデータ(製品販売、電話、銀行取引等)を大量に処理する必要があります。ビジネスインテリジェンス(BI)システムの中には、単に増分を追加するだけのものもありますが、データ追加の度に全体をリロードする場合もあります。
  • 情報システムは、ビジネスが成長して複雑になるにつれて、情報ソースの差分も大きくなります。データ統合とETL処理は、パッケージアプリケーション(ERP、CRMなど)、データベース、メインフレーム、ファイル、Webサービスなどへの包括的な接続性が必要となります。
  • 情報システムが複雑になるにつれ、情報ソースの差分も同様に大きくなります。ETLはパッケージアプリケーション (ERPやCRM等)、データベース、メインフレーム、ファイル、ウェブサービス、ビッグデータプラットフォーム、SaaSアプリケーデョンを含む広い範囲のシステムへの複雑な接続が必要です。
  • ビジネスインテリジェンスとそのアプリケーションには、データウェアハウス、データマート、分析用OLAPアプリケーション、レポート、ダッシュボード、スコアカードなどが含まれます。これらのデータ構造には、それぞれ異なるデータ変換の要件があり、情報が反映されるまでのリードタイムも異なります。
  • データ統合とETL処理に関する変換は、非常に複雑になりがちです。データは、集約、解析、計算、統計的処理等が施される必要があります。「緩やかに変化する次元」に代表されるビジネスインテリジェンス固有の変換の必要もあります。

 

ソリューション: 分析のためのTalend

Talendのオープンソース・データ統合ソリューションは、エンタープライズクラスのETLに最適化されています。以下の機能は、ETL処理の設計、開発、実行、保守において特に重要なものです。

  • 高い拡張性と高速な実行プラットフォーム – 汎用的なハードウェアによるグリッドを利用すると同時に、業界唯一、ETL及びELTアーキテクチャをサポートします。
  • コネクティビティの高さ – 全てのシステムをサポートし、全ての業務システムへのアクセスを可能にし、新しいソースシステムの追加を容易にできます。
  • ETL用高機能なコンポーネント - 文字列操作、「緩やかに変化するディメンジョン」、自動ルックアップ処理、バルクロードのサポートなどに対応します。
  • ビジネス指向のプロセスモデリング - IT部門と事業部門間の業務関係者による適切なコミュニケーションをできるようにします。
  • グラフィカルな開発環境 - 生産性を大きく向上させ、メンテナンスを容易にします。

 

Talend製品

Talend Big Data

Talend Open Studio for Big Dataは、MapReduce、Hadoop、HBase、Hive、HCatalog、 Oozie、Sqoop、Pigなどのビッグデータコンポーネントをひとつのオープンソース環境に統合することで、異なるシステムからの異なるデータセットを素早く抽出し、処理し、ロードすることができます。Talend Enterprise Big Dataは、チームワーク、高度な管理特性、補償、サポートが追加されています。

Learn More

Talend Data Integration

Talendは、多種多様なシステムのデータにアクセスし、収集し、変換し、移行できる拡張性の高いデータインテグレーションツールを提供しています。800以上のコネクターによってTalendはデータインテグレーションを単純化します。

さらに詳しく

Talend Data Quality

Talendは、パワフルなオープンソースベースのデータ品質ソリューションを提供します。エンドツーエンドなプロファイリング、クレンジング、マッチング、そしてモニタリングを実行し、異常を確認し、データを標準化し、時間をかけて重複を解決し、データ品質をモニターします。データの一貫性がシステムの統合を改善します。

さらに詳しく

Talend Data Management

Talend Data Managementは、多種多様で重複したデータソースを信頼性のある集約した情報に変換するので、日々のビジネス意思決定において確信ある決定ができます。

さらに詳しく