分析のためのETL
ETL(抽出、変換、ロード)処理は、ビジネスインテリジェンス基盤に関するデータ統合の中で最も重要で付加価値の高いコンポーネントです。Business Intelligence (BI)基盤を使用するユーザにはほとんどわからないかもしれませんが、ETLは、全ての業務システムからデータを取得し、分析/レポートツールの前処理を行います。実際、Business Intelligence (BI)基盤全体における情報の精度と決められた時間にサービスが提供できるかどうかは、ETLに依存しています。
ETLに関するTalendソリューションの詳しい情報を入手する。
ETLとは何か?
抽出、変換、ロードの複数のステップから構成され、業務アプリケーションからビジネスインテリジェンス・システムへのデータ転送を目的としています:
- 抽出 - 業務アプリケーションやデータベース(ERP、CRM、RDBMS、ファイルなど)からデータを抽出。
- 変換 – ソース/ターゲットシステム間で、抽出したデータの調整、即ち、計算/文字列解析を実行する、外部を参照して得た情報でエンリッチする、ターゲットシステム(第三正規形、スタースキーマ、緩やかに変化するディメンジョン等)に合わせてフォーマットを一致させる、などの処理を行います。
- ロード – 上記データ統合処理で作成したデータを様々なビジネスインテリジェンス(BI)アプリケーション、例えば、データウェアハウス、エンタープライズデータウェアハウス、データマート、オンライン分析処理(OLAP)アプリケーションまたは"キューブ"、などにロードします。
ETL処理の遅延度は、バッチ(月次、週次、ほとんどの場合日時)から、頻繁なリフレッシュ(1時間毎、数分毎等)を伴う疑似リアルタイムデータ統合まで様々です。
ETLの課題
効率的で信頼性の高いETL処理を作り上げるには多くの課題があります。
- データ量が、急激に増加すると、ETL処理は、粒度の小さいデータ(製品販売、電話、銀行取引等)を大量に処理する必要があります。ビジネスインテリジェンス(BI)システムの中には、単に増分を追加するだけのものもありますが、データ追加の度に全体をリロードする場合もあります。
- 情報システムは、成長して複雑になるにつれて、同様にソースの格差も大きくなります。データ統合とETL処理は、パッケージアプリケーション(ERP、CRMなど)、データベース、メインフレーム、ファイル、Webサービスなどへの包括的な接続性が必要となります。
- ビジネスインテリジェンスとそのアプリケーションには、データウェアハウス、データマート、分析用OLAPアプリケーション、レポート、ダッシュボード、スコアカードなどが含まれます。これらのデータ構造には、それぞれ異なるデータ変換の要件があり、情報が反映されるまでのリードタイムも異なります。
- データ統合とETL処理に関する変換は、非常に複雑になりがちです。データは、集約、解析、計算、統計的処理等が施される必要があります。「緩やかに変化する次元」に代表されるビジネスインテリジェンス固有の変換の必要もあります。
- ビジネスインテリジェンス(BI)にリアルタイム性が求められるにつれ、データウェアハウス、データマートは以前よりも頻繁に更新しなければならず、データロードする時間枠は、どんどん短くなります。
オープンソース・データ統合ソリューションによるETL
Talendのオープンソース・データ統合ソリューションは、エンタープライズクラスのETLに最適化されています。以下の機能は、ETL処理の設計、開発、実行、保守において特に重要なものです。:
- ビジネス指向のプロセスモデリング - IT部門と事業部門間の業務関係者による適切なコミュニケーションをできるようにします。
- グラフィカルな開発環境 - 生産性を大きく向上させ、メンテナンスを容易にします。
- 高い拡張性と高速な実行プラットフォーム – 汎用的なハードウェアによるグリッドを利用すると同時に、業界唯一、ETL + ELTアーキテクチャをサポートします。
- コネクティビティの高さ – 全てのシステムをサポートし、全ての業務システムへのアクセスを可能にし、新しいソースシステムの追加を容易にできます。
- ETL用高機能なコンポーネント - 文字列操作、「緩やかに変化するディメンジョン」、自動ルックアップ処理、バルクロードのサポートなどに対応します。