| ライセンスタイプと保証 |
|
オープンソースGPLライセンス |
|
|
GNU General Public License は、GNUプロジェクトのフリーソフトウェアの配布に関する法的な条件を規定するライセンスです。
GNU GPL ライセンスの目的は、以下の権利をユーザに保証することです:
- 何ら制限なくあらゆるユーザに当該ソフトウェアを実行する権利
- 当該ソフトウェアの機能の分析を行い、他の要件に対してそれを適用する権利
当該ソフトウェアを改変した者がそれを配布しようとする場合は、GPLライセンスの規定に従い配布しなければなりません。
GPLライセンスの全文は、以下でごらんいただけます:http://www.opensource.org/licenses/gpl-2.0.php |
|
|
ソースコードに対するアクセス |
|
|
|
サブスクリプションライセンス |
|
|
「企業向け」の製品は、オープンソース製品を機能強化(下記参照)し、サービスを追加したものとなっており、商用ライセンスに従って提供されます。
Talendの価格モデルは、透明性と予測可能性を高めるものです。即ち、データ量や将来追加で必要となるであろうコネクター類や CPU数に依存するのではなく、Studioを使う開発・運用担当者数と機能レベル(どのエディションを選択するか)、およびサブスクリプション期間にの み依存します。
このサブスクリプション方式は、対投資効果を高めるものです。即ち、プロジェクトの範囲や担当者の状況に合わせて、毎年ライセンス数を増やすあるいは減らすことができます。
Talendのソリューションはより安価に導入、維持、またサポートができます。即ち、同等のプロプラエタリなソリューションに比して50~80% のコスト負担で済むと言われています。 |
|
|
製品サポート |
|
|
オープンソース・ソフトウェアは、多くの協力的な開発努力の結果出来上がっているものであり、最終的なコードは様々なリソースを組み合わせて提供さ れています。従って、コードに対する変更が十分な管理とコントロールを持って行わなければ、最終的なソフトウエアがオリジナルの作成者の権利を侵害してし まうことに成りかねません。
エンドユーザは、意図的ではないにせよ、このような侵害があった場合、訴訟や賠償を求められる可能性があります。
Talendは、サブスクリプションのお客様に対して、契約上の補償条項をお付けしています。即ち、もしTalendのコードが第三者の権利を侵害していた場合、それに対する訴訟や賠償に対してTalendが擁護を行うというものです。 |
|
| |
| サポートおよびドキュメント |
|
コミュニティベース: フォーラム、バグトラッカー |
|
|
Talendのユーザコミュニティは、数万人のプロフェッショナルが参加する非常に活発なものです。コミュニティからは以下のような貢献をいただいています。
- 新バージョンに対するテスト、品質チェック
- 新機能に対するリクエスト
- 製品の翻訳とローカリゼーション
- フォーラムを通したサポートや情報交換
- 新しいコンポーネント、コネクター、ジョブ、モデルおよびその他プラグインの開発ならびに共有。
Talend Exchange は、コミュニティメンバーが自分で作成したプラグインを公開し、他のユーザとシェアするための場です。これらの提供物の多くは、TalendのR&Dチームによる十分な製品検査と機能強化を経て、最終的に製品組み込まれます。
さらに、Talendは、Eclipse ならびに Apache のメンバーであり、多くのキーとなるオープンソースプロジェクトに貢献しております。 |
|
|
SLAに基づくエンタープライズサポート |
|
|
|
ユーザガイド、リファレンスガイド |
|
|
| |
| モデリング / ドキュメンテーション |
|
ビジネスモデラ |
|
|
ビジネスモデラは、(マイクロソフトのVisioのように)視覚的に操作できるツールです。データ統合プロセス を支援するドキュメントや技術項目を構造化し、業務的なダイヤグラムに表現することで、異なったチーム(設計、開発、テスト、運用等)が共通のモデルと ツールを利用することができるようになります。
例えば、業務ユーザは、データ統合に関する要求をビジネスモデルを使って表現します。IT部門、運用部門のメンバーは、業務要件をよ りよく理解できると同時に、それをシステム上のプロセス(ジョブ)に変換していきます。システム上の実装段階が終了した後でも、ビジネスモデルは容易に変 更可能で、他の関係者に対して開発進捗状況を提示し、フォローアップを行うことが可能です。DBAは、ビジネスモデルを、必要なDB接続メタデータを共有 化することに利用でき、また、システムアーキテクトは、データ統合に必要な要件を加味して全体設計を行うことができます。
ビジネスモデルの設計は、成功を確たるものにするため、データ管理またはデータ統合プロジェクトの初期段階で適用すべきベストプラク ティスの一つです。なぜならば、ビジネスモデルはしばしばプロジェクトのボトルネックや弱点を早期に発見し、また解決することに役立ち、延いては予算超過 や追加投資を避けることに繋がるのです。 |
|
|
AutoDoc |
|
|
当機能により、全てのジョブに対する詳細な技術ドキュメントをリクエストベースで生成することができます。このドキュメンテーション機能は、ジョブ のメタデータ(作成者、バージョン、ステータス、更新日等)を収集し、ジョブとそれに関連する全てのコンポーネントの全てのパラメータを容易に利用可能な フォーマット(HTML/XML)でグラフィカルに表示します。
このドキュメントには独自のコメントを追加してエンハンスすることができます。 |
|
|
Auto Doc+ |
|
|
AutoDoc+ により、技術ドキュメント(全項参照)をジョブの各バージョン毎に作成できるようになります。ジョブを保存すると、ドキュメントは更新されリポジトリに格納され、自動的に他の全てのユーザで共有化を図ることができます。
AutoDoc+ ではさらに、独自のロゴや会社名を追加したり、CSSをカスタマイズすることで配色を変更する等、ドキュメントの表示方法をカスタマイズすることができます。 |
|
| |
| ジョブ開発 |
|
Jobデザイナ |
|
|
Jobデザイナは、グラフィカルなパレットで表現されたコンポーネントおよびコネクタを使って、実際のデータ統合プロセスを視覚的に表現する機能を提供します。
データ統合プロセスは、コンポーネントとコネクタを視覚的なワークスペースに配置し、リンク線でそれらを結んで関連付けを行い、また、それらのプロパティを設定することで、作成することができます。
Jobデザイナには多数のコンポーネントが含まれており、殆どのデータ統合、データ移行、データ同期処理におけるソースおよびター ゲットシステムへのアクセスをこれらのコンポーネントで賄う事ができます。コンポーネントおよびコネクタは、データ処理、データの管理、ならびにデータフ ローに関するあらゆるタイプのタスクと処理に対応しています。コネクタは、データ統合、データ移行、データ同期におけるソースおよびターゲットシステムの データに対する、接続およびread/writeを行う機能を提供します。パラメータは、ジョブの中でコンポーネントを選択した際に設定するか、もしくは メタデータマネージャ(リポジトリ)から反映させることができます。
複雑なコンポーネントには、ユーザのジョブ設計を支援するため、独自の直感的なグラフィカルインタフェース、もしくは組み込み型のウィザードが備わっています。
ジョブ設計の理解し易さを維持するため、ジョブのダイヤグラムはサブジョブに分割することができ、また、ジョブ実行の順番を定義する ため親子関係を持たせることができます。様々なジョブフロー設定が可能なことに加え、オーケストレーションコンポーネントにより、ジョブフローの組み立て が可能です。組み込み型のコンソールビューを使って、ジョブの実行状態、パフォーマンスのチェックとトラッキングをStudioから直接行うことができま す。 |
|
|
コンポーネント |
|
|
TalendはあらゆるIT環境にアクセスするための、業務的、技術的なオープンソースのネイティブなコネクタを提供します。豊富なコネクタの提供 は、アプリケーションとデータベースの相互接続を実現する上での鍵となるものです。即ち、複雑多岐に渡るデータ構造を、比類ないパフォーマンスでブリッジ ング可能にするのです。コンポーネントは拡張を続け、Talendのオープンソースデータ統合、データ移行、データ同期といった機能を充実したものにして います。現在550以上のコンポーネントが利用可能で、その60%は、Talendコミュニティで設計・開発されたものとなっています。
Talend Exchange (http://talendforge.org/exchange/) で、外部で開発されたコネクタとコンポーネントをシェアすることができます。ここに提供されたコンポーネントは、TalendがQAと最適化を実施した後、ネイティブに製品に組み込まれ、サポート対象となります。
http://www.talendforge.org/components に正式にサポートされているコネクタのリストがあります。 |
|
|
ETL機能 |
|
|
ETL (Extract, Transform & Load) は、Talendのデータ統合ソリューションのデフォルトのモードとして利用されています。これは、フローモデルに基づいて、逐次的にデータを処理すると いうことになりますが、ETLモデルは特に、異なったソースシステムが混在する環境で、それらをターゲットシステム (webサービス、ファイル、データベース、MOM、業務アプリケーション等) にデータを統合したいといった場合に適用されます。
ETLモードは、バッチおよびリアルタイム処理いずれにも用いることができます。ETL処理は処理効率を高めるため、並列で実行させることが可能です。
Talendの独自アーキテクチャは、単独の処理プロセスを生成する方式のため、実行エンジンに依存するものではなく、様々なサーバ (社内、社外いずれでも)に展開することができます。従って、ETLプロセスを最大限データソースに近い場所で実行させることで、アクセス時間やネット ワーク負荷を軽減し、ボトルネックを排除していくことが可能となります。
同じジョブにおいて、最大限のパフォーマンスを得るために、アーキテクチャ上の如何なる制約を受けることなく、ELTアプローチ (次項参照) を組み合わせることができます。 |
|
|
ELT機能 |
|
Talendのデータ統合ソリューションは、ELT (Extract, Load & Transform) モードもサポートしています。これは、ターゲットとなるDBMS上に直接的に一連の操作 (Union, Expect and Intersect 操作) を実行します。
このモードは、単一のシステム環境(1つのデータベース)に対してのみ可能となります。このモードは、物理的に十分なリソースが用意 できる、例えばTeradata、Netezza といった、 「データウェアハウス アプライアンス」 環境において、非常に大きなボリュームのデータを処理する場合に特に推奨されるモードです。
同じジョブにおいて、最大限のパフォーマンスを得るために、アーキテクチャ上の如何なる制約を受けることなく、ETLアプローチ (前項参照) を組み合わせることができます。 |
|
|
バージョン管理 |
|
|
マニュアルでのバージョン管理機能により、Talend Studioにおける生成物のバージョン管理が容易にできます。
ジョブが生成された際、メジャーおよびマイナーバージョン番号が自動採番され、経時と更新の際、Talend Studioのデザイナ部分にある専用のパネルから容易にバージョン番号を上げることができます。
Studioで作成された全ての生成物はバージョン管理されます。例えば、ビジネスモデル、ジョブ、ルーチン、メタデータ、ドキュメント等です。
バージョン管理は一般的に、生成物を再利用可能にする、あるいは必要な場合に過去のバージョンに遡る、といった場合のベストプラクティスの一部です。 |
|
|
共有リポジトリ |
|
|
共有リポジトリ(あるいはメタデータマネージャ)は、データ統合プロセスにおける全ての関係者で共有すべき、あらゆるプロジェクト情報を集め、一つの集中化したリポジトリとしたものです。
Studioを利用する際に、Talend Administration Center で定義されたロールと権限に応じて、ユーザにプロジェクトに対するアクセス権限が付与されます。
共有リポジトリは、データ統合プロジェクト関係者のチームワークとコラボレーションを可能にします。Talendで生成される生成 物、即ちジョブ(プロセス)、ルーチン、メタデータ定義(例えばソースまたはターゲットシステムに対する接続情報)等を格納し、共有化できるようになりま す。
共有リポジトリは、業界標準のソース管理システム(Subversion)に立脚しており、全ての生成物を格納し、また、これらの全てのバージョンを管理できるようになっています。
自動ロックシステムは、他のユーザが同じジョブを同時に変更できないよう、ジョブを効果的にロックすることを保証するように設計されています。
Version 4.0 からは、Subversionの機能をフルに生かし、異なる組織間での利用、チェックイン/チェックアウト、手動または自動コミット、コメント付加機能等が利用できるようになりました。
|
|
|
データビューワー |
|
|
Talend上でジョブを開発する際、ソースまたはターゲットシステム上の様々なコンテンツ(ファイル、DB、その他)の参照が必要になるはずで す。データビューワーは、アプリケーション、即ち、txtやcsvであればNotepad、データベースのテーブルならSQLクエリブラウザ、.XLS ファイルならMS Excel、さらにhtml ブラウザ等といたものを利用せずに、直接ソースまたはターゲットシステムのデータをドリルダウンすることを可能にする機能です。
複数の異なるツールを用意して、データの存在するシステムにアクセスに行くという煩雑さも無く、データビューワーを使えば目的とするソースまたはターゲットシステムのデータに直接アクセスすることができます。
コンポーネントを右クリックすることでデータビューワーを直接呼び出せるので、大幅な時間削減が図れます。データ統合プロセスを開発中、ソースまたはター ゲットシステムにあるデータのフォーマット(Excel、DBテーブル、CSV等々)を意識せずにデータを参照できるのは使い勝手よいものです。 |
|
|
ウィザード機能 |
|
ダイナミックスキーマ |
|
|
ダイナミック スキーマ により、構造や数が不明なカラムを扱うジョブの設計を、行うことができます。開発者の選択により、ダイナミックカラムをパススルーモードでターゲットに直接マッピングさせることもできます。
この機能は、非常に多くのカラムをレプリケートする、もしくは1対1にマッピングするといったアプリケーションで主に利用され、この タイプのジョブ設計を容易なものにします。例えば、全てのテーブル構造を知ることなく、数百ものテーブルをもったデータベースのマイグレーションを、単一 のジョブで行いたいといった場合です。 |
|
|
インパクト分析 |
|
|
インパクト分析は、変更後の影響範囲を把握する機能です。
この機能は、メタデータマネージャで利用可能です。インパクト分析はあらゆるメタデータ(データベース、ファイル等)の全てのカラムに対して可能です。イ ンパクト分析の結果は、グラフィカルでインタラクティブなレポートとして作成されますが、カラムをトラックダウンすることで、そのジョブにおけるソースか らターゲットシステム全体で、当該カラムに対して行われる全ての操作を確認することが可能です。
このレポートはHTMLファイルにエキスポートできます。 |
|
|
データリネージ(来歴分析)機能 |
|
|
データリネージ機能は、変更が発生した箇所を把握するための機能です。
この機能はメタデータマネージャから利用でき、全てのメタデータ(DB、ファイル)に対して適用できます。データリネージ機能により、ジョブ内の目的とするコンポーネントから、元のソースまで遡って変換処理をトレースした結果がレポートされます。
このレポートはHTMLファイルにエキスポートできます。 |
|
|
ジョブ差分検出機能 |
|
|
ジョブ差分検出機能は、2つの異なるバージョンまたは異なるジョブの差異を把握する機能です。
ジョブ差分検出機能は、Talend Integration Suite Studio に組み込まれている機能です。ジョブ差分検出機能の結果は、視覚的でインタラクティブな形で、html もしくは xml で差異がハイライトされて表示されます。
この例では、2つのジョブにおけるtFileInputDelimited コンポーネントの区切り文字設定が異なっている、即ち、version 3.2 では \t 、version 4.2 では \nである、ということをレポートしています。 |
|
|
ジョブレット |
|
|
ジョブレットにより、ジョブ(またはサブジョブ)をジョブレットコンポーネントに入れて、部品化することができます。操作は簡単で、再利用したいま たはジョブの部品化したい個所を選択し、メインメニューの 「Refactor to Joblet」 をクリックすれば完了です。
自動的に選択されたコンポーネントが一つのジョブレットに折りたたまれ、画面上、シンプルに見えるようになります。このジョブレット はフォルダツリーにある特定のジョブレットフォルダに格納され、共有化を図ることができ、他のジョブで容易に再利用することが可能になります。
ジョブレットは冗長的で複雑なジョブの保守性を大幅に向上します。
さらに、「インパクト分析」を使えば、どのジョブが定義済みジョブレットを利用しているかを分析することができます。 |
|
|
リファレンスプロジェクト機能 |
|
|
リファレンスプロジェクト機能は、プロジェクト間で生成物(ジョブ、ルーチン、ドキュメント、メタデータ等)の冗長な複製を避けることを支援する機能です。
「従」プロジェクトは一つまたはそれ以上の「主」プロジェクトに紐付けられ、主プロジェクトの生成物を継承します。
従プロジェクトで主プロジェクトから引き継がれた生成物は、読み取り専用となり、再利用や実行は可能ですが、変更はできません。
主従プロジェクトは密接にリンクされているので、主プロジェクトの生成物に変更があった場合、直ちに従プロジェクトの生成物も更新されます。
リファレンスプロジェクト機能は、プロジェクト間で共通する生成物(ジョブ、テンプレート、メタデータ)を他のプロジェクトにもシェ アさせるためのものです。この機能により、データ統合プロジェクトでは30% も重複していると言われている生成物の、再利用化を促進し、保守に対する労力を大幅に削減することができます。 |
|
|
チェンジデータキャプチャ(CDC) |
|
|
データウェアハウスは、分析目的のため、複数のデータベースからデータを抽出し、複数のターゲットシステムにデータを転送する処理を行っています。 しかし、これは同時に、膨大なデータの抽出と転送処理により、システムリソースと時間が大量に消費される可能性があることを意味しています。
変更が起こったデータのみをリアルタイムに検出する機能は、「チェンジデータキャプチャ(CDC)」 として知られています。変更の検出は、システム間のデータトラフィックを低減し、かつ、ETLに必要な時間を低減します。
TalendのCDCアーキテクチャは、パブリッシャ/サブスクライバ モデルに立脚しています。パブリッシャは、データ変更を検知し、サブスクライバ(Talendのジョブ)に利用可能にします。サブスクライバは、パブリッシャから取得した変更データを利用します。
この機能は、変更レコードをリアルタイムに検知し、変更のあったデータを即時に複数のサブスクライバジョブに転送することで、ETLもしくはオペレーショナルなデータ統合におけるデータロードおよびデータ更新に必要な時間を短縮するものです。
Talendのチェンジデータキャプチャ機能は、広く一般的に利用されている方法、即ち、トリガ および REDOログ による方式を提供しています。何れが利用可能かは、データベースのタイプに依存します。 |
|
|
ビジネスルール |
|
|
ビジネスルールは、業務ユーザが作成した要件書を、ITスタッフが解釈しシステムに設定したものと一般的に定義されます。
Talend Integration Suite には、独自のビジネスルールをユーザが設定するための、ビジネスルールエンジンが組み込まれています。ユーザは、マーケットをセグメントするためのクライ テリア(年齢、地域等)を定義、Excel またはDrools Guvnor インタフェースを通して、WebベースのTalend Administration Center から直接ビジネスルールを設定することができます。
Drools Guvnor インタフェースを利用することで、業務担当者はグラフィカルエディタを利用して素早く直接的に、ルールの作成・編集、ルールに対するアクセスの制御、ルー ルのバージョン管理、そして変更を行うことができます。設定したルールは開発したジョブから呼び出しテストすることができます(次のスライド参照)。 |
|
| |
| テスト |
|
コンテキスト管理 |
|
|
コンテキストにより、ほぼ全てのコンポーネントまたはジョブのパラメータを外出しすることができます。これによりユーザは、開発、テスト、本番時に異なったパラメーター設定でジョブを稼動させることができます。
コンテキストは、数に制限なく、あらゆるタイプの環境(開発、テスト、本番等)に対して必要なだけ定義することができます。
どの設定のコンテキストを利用するかは、設計時、実行時など何時でも変更することができます。
また、パラメータ値は設計あるいはテスト時にダイアログボックスを使って、変更することが可能です。さらに、専用のパラメータローディングコンポーネントを利用することで、既定の設定を動的に書き換えることができます。 |
|
|
ディスタントラン機能 |
|
|
ディスタントラン機能は、Studioから直接、ジョブを他のサーバ上でリモート実行させるための機能です。
この機能は、ジョブをテストする局面において特に有用です。例えば:
- 本番環境に近いコンフィグレーションで、
- 様々なオペレーティングシステム上で、
- 特定のシステムの条件下で、
環境を移行する複雑さを回避することができます。
ターゲットとなるシステムは、実行時にStudioから動的に選択可能です。リモート環境での実行であっても、通常のデバック、トレース、リアルタイム統計処理といった機能は有効です。 |
|
| |
| デプロイ |
|
Talend Administration Center |
|
全てのサブスクリプションには、一つ(ユーザ数に応じてそれ以上)のStudioおよびサーバにインストールし、Webベースのインタフェースから操作できるアドミニストレーション機能であるTalend Administration Center が含まれています。
従って、全てのStudioは単にローカルだけではなく、Talend Administration Center で定義されたプロジェクトにリモートで接続することができます。
Talend Administration Center は、(ブラウザを利用し、特別な設定は不要な)軽量なアプリケーションであり、ユーザ、プロジェクト、ユーザ権限、ライセンス等を統合管理することを支援します。
プロジェクト権限は、ユーザ毎に設定することが可能です(LDAPディレクトリをサポート)。これにより、ユーザはロールに応じたプロジェクトへのアクセス権限、即ち、権限無し、参照のみ、編集可能といったものが付与されます。
ユーザはアクセス権限を付与されたプロジェクトに対して、Studio内から直接、他のユーザとリポジトリ(ジョブ、ビジネスモデル、DB接続メタデータ等)を共有することができます。共有リポジトリについては、後段のスライドで説明します。
サブスクリプションされているTalend Integration Suiteのエディションにより、左側のナビゲーションパネル(ダッシュボード、SOAマネージャ、サーバマネージャ等)から、多くの追加のプラグインを 利用することが可能です(ダッシュボード、SOAマネージャ、サーバマネージャ等)。
|
|
|
Jobコンダクタ |
|
|
Jobコンダクタにより、データ統合ジョブの実行方法を設定することができます。これは、ジョブを手動で起動す るのか、時間起動するのか(Team Edition以上)、あるいはイベントベースで起動するのか(Professional Edition 以上)といった実行スケジュールを集中的に設定するためのインタフェースを提供します。
Jobコンダクタのモジュールは、ジョブを実行するサーバ毎にインストールされる 「JobServers」 またはエージェントと呼ばれる機能により実行されます。
エージェントがセットアップされると、Jobコンダクタで、全てのハードウェアリソース(利用可能なCPU、RAM、HD等)をリアルタイムにモニタする ことができ、最大限使用可能なサーバを利用した、グリッドでのジョブの分散実行を支援します。また、JMXをネイティブでサポートしており、40以上の指 標を利用してモニタが可能です。こういった機能により、ワンクリックで、ジョブをあらゆるサーバ上に展開することができるのです。 |
|
|
コマンドライン |
|
|
コマンドラインモジュールを利用することで、Jobデザイナで作成した統合プロセスを、Talend StudioのGUIを使わずに、更新または実行させることが可能となります。
Talendのコマンドラインモジュールはコマンドラインオプションを提供しており、開発者および管理者が容易にバッチ処理を行えるようになります。
Talend Studio および Talend Administration Center で利用可能なジョブ管理機能の、ほぼ全てがコマンドラインで利用できます。これには、例えば、ジョブのプロパティの更新、プロジェクトの本番環境への適 用、ジョブまたはジョブセットのエキスポート/インポートといった機能も含まれます。
コマンドライン機能により、ジョブの依存関係や実行メタデータを含む、膨大で複雑なジョブのデプロイと実行を、容易に短期間で実施することができるようになります。
多数の利用可能なコマンドの簡易説明がヘルプ機能により提供されます。 |
|
|
タイムスケジューラ機能 |
|
|
タイムスケジューラは、指定された日時(月次第一月曜日、毎火曜日等)もしくは定期的にジョブを実行させるための機能です。タスクは、ジョブの実行に必要な情報(プロジェクト名、ジョブ名、ジョブバージョン、サーバ等)を集中的に管理するために利用します。
タスクはスケジュールされた日時になると起動され、ジョブは指定されたサーバ上で指定された日時に、自動的に展開され実行されます。タスクの起動状況、実行の成功/失敗といった状況は、ジョブコンダクタから直接モニタリングすることができます。
Professional Edition 以上では、イベント/ファイル トリガのスケジューリング機能が追加されています(イベントスケジューラのスライド参照)。 |
|
|
イベントスケジューラ機能 |
|
|
イベントスケジューラは、時間ベースのスケジューリングを、リアルタイムでの対応に拡張するものです。
イベントリスナは、ジョブの実行をオンデマンドまたはイベント発生をトリガにして開始させるための機能です。
イベントは、ファイルが作成された、削除された、変更された、といったファイルトリガに基づくもの、または 「wait for」 コンディションを利用するSQL実行に基づくものであることができます。該当するイベントが検知されると、タスクの実行がトリガされ、ジョブが展開・実行 されます。
どんなタスクにでも容易に新しいイベントを追加でき、自動実行の範囲を拡張することができます。 |
|
|
実行計画機能 |
|
|
実行計画機能は、ジョブコンダクタから直接、さまざまなジョブの実行手順を調整し、また、エラーリカバリを容易に行えるように支援する機能です。実行計画機能は、実行順序を定義している異なるタスク間の依存関係をアウトライン出力します。
タスクは配下に従属するタスクを持つことができ、それらは親子関係をもった階層構造で定義されます。
実行計画そのものがスケジューリング可能であり、また、実行環境を定義するパラメータに従って、ジョブコンダクタから実行させることができます。 |
|
|
ロードバランシング機能 |
|
|
Girdコンダクタ(Jobコンダクタからアクセスできる)は、統合プロセスをグリッド環境で実行することを可能にし最適な拡張性と可用性を実現し ます。Gridコンダクタは、システムタイプ(CPU, OS等)に依存しないリソースのグルーピングを可能とする仮想サーバ化機能に基づきます。
タスクは、単一の実行サーバではなくGridコンダクタの仮想サーバにアサインされます。
実行サーバ群のリソース消費状況を定常的に監視することにより、Gridコンダクタは、従来のシングルサーバアプローチで発生するボトルネックを解消して、全てのジョブ実行が使用可能なリソースを活用してトリガ時間にスムーズに実行出来ることを担保します。
多くのジョブを多重実行するような場合、または非専用サーバを使用しなければならない場合、リソース競合についての懸念は軽減できるかもしれません。Gridコンダクタは、リソース状況が実行するに足らないと判断された場合自動的にフェイルオーバーを実施します。 |
|
|
高可用性 |
|
|
高可用性は、複数のJobコンダクタとジョブ実行サーバ群にジョブをデプロイすることにより実現します。
一方でデータベースのクラスタリングは、フェイルオーバーによる実行停止の抑制を担保します。 |
|
|
フェイルオーバー機能 |
|
FileScale |
|
|
Talend Integration Suite MPxは、マルチサーバ、マルチCPU、マルチコアアーキテクチャにおいて、コードとサブプロセスを分割し、処理の並列実行を可能にします。超並列処理機 能は、エンタープライズサーバや複数のプロセッサ環境において処理時間を劇的に短縮します。
Talend Integration Suite MPxのユニークな機能であるFileScaleテ クノロジは、処理実行サーバのアーキテクチャを有効利用し、低レベルソートアルゴリズムによりパフォーマンスを最大化します。FileScaleテクノロ ジは、巨大データファイルに対してバルク処理を行います。JVMや旧来のデータ統合エンジンの制約に囚われない最大限のアドバンテージを提供します。
FileScaleテクノロジのソートとデータ変換は、データ処理において革新的で高パフォーマンスな数学アルゴリズムに基づきま す。FileScaleテクノロジは、あらゆる粒度の処理におけるデータ処理の限界を打破し素晴らしいパフォーマンスを達成します。Sun Microsystemsのワークベンチを参照ください:http://blogs.sun.com/aja/entry/talend_s_new_data_processing |
|
|
Hadoopサポート |
|
|
Apache Hadoopは、分散型データ集中アプリケーションのためのオープンソースJavaフレームワークです。Map Reduceアーキテクチャに基づき比較的安価なサーバによるグリッド環境にてアプリケーションが数千ノードと数ペタバイトのデータを扱うことを可能にし ます。Talend Integration Suite MPxは、あらゆるレベルでにスケールが可能なHadoopをネイティブにサポートする機能をもち、あらゆるデータタイプをサポートします。導入企業は、 自社のHadoopクラスタを、複雑な変換処理を行うために最大限利用することが可能です。
Hadoop用のコンポーネントセットは、Studioの「パレット」から使用することが可能であり、Hive同様、HDFSに対するread/writeが可能であり、ELTとSQLテンプレートの機能を提供します。 |
|
| |
| モニタリング機能 |
|
AMC |
|
|
Talend Activity Monitoring Consoleは、利便性の良いグラフィカルな集中監視ツールです。
ログ情報を一極集中して詳細な監視機能を提供し、ジョブ間の依存性を把握し、予測できない問題発生を抑制しシステム管理上の意思決定を支援します
Activity Monitoring Consoleは、ジョブのイベント(成功、失敗、警告等)、実行時間と処理量を集約された単一のコンソールで監視すること可能にします。
このツールは、Studio内に完全に統合されたスタンドアローンツールとして使用することが可能です。 |
|
|
ダッシュボード機能 |
|
|
ダッシュボードは、Activity Monitoring Consoleの機能をWEBの仕組みを使って提供します。ユーザはWEBブラウザを使用してジョブ実行状況に容易にアクセスすることが可能です。
ダッシュボードはジョブのパフォーマンスと実行状況指標を視覚化し、運用管理者は統合プロセスの過去状況と現状を確認することが可能です。
また、収集されたログを統合して詳細な監視機能を提供し、ジョブ間の依存性と含まれるコンポーネント内容を把握し、タスクの実行情報をタイムリーに提供します。予測できない問題発生を抑制しシステム管理上の意思決定を支援します。 |
|
|
エラーリカバリ機能 |
|
|
ジョブ運用作業に於いてバックアップとリカバリ作業は手間のかかるものです。Talend Integration Suite Studioは、ジョブ開発時にリカバリチェックポイントの設置を可能にします。
ジョブ実行中に問題が発生した場合、設定されたチェックポイントから再開することが可能です。ジョブの開発者は、チェックポイント機能である「on-failure」を使用することで、特定のエラー発生時の対処を施すことが可能です。
リカバリチェックポイントにより、トリガコネクションで設定されたデータフローを適切に開始することが可能です。これはまた、問題発生からの再開に要する時間と手間を最小限にすることを目的としています。
エラーリカバリチェックポイント機能は、問題発生時にジョブを最初から再実行するのではなく、直近の(または問題発生以前の幾つかの条件に合致する)チェックポイントから再開することを可能にします。 |
|
| データプロファイリング基本機能 |
|
データ構造比較及び同期 |
|
データベース分析(コンテンツ、カタログ、スキーマ) |
|
テーブル分析(カラムセット、依存関係、DQルール) |
|
カラム分析 |
|
冗長分析 |
|
カラム相関分析(数値、時間、名詞) |
|
検査結果の視覚的表示(テキストとグラフ) |
|
データのドリルダウン |
|
カスタムタスクの追加 |
| |
| データプロファイリングの高度な機能 |
|
SQLパターンライブラリ |
|
正規表現パターンライブラリ |
|
パターンテストビュー |
|
データパターン発見(パターン出現頻度、Soundex出現頻度) |
|
パターンのカスタマイズ |
|
指標(シンプル、テキスト、サマリ、高度な統計と数値指標) |
|
SQLやJava中の指標のカスタマイズ(カウント、実際値、マッチング、頻度) |
|
Talend Exchangeでの指標とパターンの共有 |
|
SQLのビジネスルールによるテーブル分析 |
|
データクオリティの閾値 |
|
分析結果のデータマート保存 |
|
バッチ実行の分析 |
|
分析履歴 |
|
レポート生成 |
|
JasperReportsによるXMLベースのレポート |
| |
| データクレンジング |
|
Talend Integration Suiteとの完全な統合 |
|
パターンマッチング |
|
インターバルマッチング |
|
名前、住所のクレンジング |
|
サードパーティ製アドレス検証サービス |
|
あいまいマッチング(Soundex、SoundexFR、Levenshtein、Jaro-Winkler、Q-gram) |
|
レコードマッチング(マッチ、アンマッチ、 サスペクト) |
|
あいまいな重複の除外 |
|
閾値の検証 |
| |
| レポートとポータル |
|
直感的なWebベースの管理用コンソール |
|
潜在的なプライマリ・キーのレポート |
|
リレーションを失ったテーブルのレポート |
|
Studioが生成したレポート全てへのアクセス |
|
事前定義されたグローバルクオリティゲージ |
|
OLAP分析構造体へのアクセス |
|
クエリのカスタマイズ |
|
レポートのカスタマイズ |
|
レポートのインポート/エクスポート |
| |
| チーム作業と開発の統合 |
|
チェックイン/アウト可能な共有レポジトリ |
|
アクセス権管理 |
|
LDAPによるユーザ管理 |
|
Talend専用Subversion環境によるメタデータ、プロジェクトの管理 |
|
Subversion環境によるメタデータ、プロジェクトの管理 |
|
Talend Data Qualityデータベース監査 |
| |
| データスチュワードシップ(オプション) |
|
ロールに基づくタスク判定 |
|
タスクのアサイン |
|
データの整合性問題の解決 |
|
データマッチング上の矛盾解決 |
|
Webユーザ環境 |