Talend Platform for Big Data

ビッグデータは、企業に大きな価値をもたらす可能性を秘めています。構造化されていない莫大なデータ、例えば、ソーシャルメディアや電子メール、センサーやデバイスからのデータに含まれている有益な情報を、ビッグデータ技術を使って取込むことを試みた方々は多いはずです。確かにビッグデータから役に立つ情報が掘り起こせることが判ってきています。しかし、最近まで、このためのやり方に統一性はなく、開発のための標準といったものも存在していませんでした。


さらに、データ分析の専門家に対する要求が高まっている一方で、こういった人々を支援するための、使い易いツールといったものが提供されていませんでした。自らビッグデータに対してデータをロード・抽出し、データの品質や連関性を向上させるという事しなければならなかったのです。このためには非常に難しい高度なプログラミング言語を習得しなければなりませんでした。

Talend Platform for Big Dataは、こういった多様性に富んだデータソースに存在するデータを、ロード、抽出、品質向上させ、かつビッグデータに係るプロジェクト統制を容易にするための、様々なツールを提供します。即ち、統合のための効率を大幅に向上させるためのデータ統合ソリューションを提供します。データクオリティコンポーネントは、Hadoopのようなマッシブ・パラレル環境を利用しているレコードを特定し、またレコード間の連関性を設定することができます。

Talend Unified Platformに立脚、Talend Platform for Big Data は、共通なコードリポジトリや、統合プロジェクトに必要となるスケジューリング、メタデータ管理、データ処理、およびサービスイネーブルメントといった機能を共有しています。

ビッグデータプロジェクト統制と管理

ビッグデータに関するプロジェクト統制は、他のデータ統合プロジェクトに非常に類似しています。しかしながら、しばしばビッグデータプロジェクトは期待されるプロジェクト管理の在り方から外れてしまう場合があります。Talend Platform for Big Data は、容易に直感的に操作できる開発環境と、ビッグデータプログラムをデプロイし、スケジューリングし、監視するための機能を提供、また、共有リポジトリにより、開発者はプロジェクトのメタデータや成果物を共有しながら作業することができます。主に以下のような機能があります:

  • 共通プロジェクトリポジトリ
    共通のメタデータおよび成果物のためのリポジトリにより、チームメンバーはプロジェクトチームをまたがって成果物を共有することができ、さらに開発のベストプラクティスをカプセル化して利用することができます。


  • プロジェクトのデプロイ
    プロジェクトチームは、ブラウザベースのデプロイメント・コンソールを利用して、新しい機能のデプロイと管理を集中的に行うことができます。複数の異なるデプロイ、テストおよび本番環境をサポートするため、開発者は複数のリポジトリにアクセスし、またソフトウェアのリリースを管理することができます。

  • スケジューリングおよびモニタリング
    スケジューラーによりビッグデータジョブをいつどの環境で実行させるかを設定することができます。ブラウザベースのコンソールの、実行監視およびロケエーター機能により、本番環境を管理することができます。

  • 操作性に優れたグラフィカルツール
    コンポーネントベースのグラフィカルな開発ツールにより、コーディングを行うことなく、ビッグデータソリューションをモデリング、開発、テストおよびデプロイすることができます。これにより、開発者の製品理解時間を大幅に短縮し、生産性を高めることができます。

ビッグデータクオリティ

Talend Platform for Big Dataは、Hadoopのマッシブパラレル環境を生かした、データクオリティ機能を提供します。マッシブパラレルの特性を生かしてデータ連関を分析することで、データの重複を特定したり、修復したりすることができます。

データクオリティに関連する全てのコンポーネントも同梱されており、データプロファイリング、正規化、構文解析、データエンリッチメント、サバイバーシップおよびモニタリングと言った機能が提供されます。

ビッグデータの統合

ビッグデータ(例えば莫大な量のログファイル、業務データ、ソーシャルメディアデータ、センサーやデバイスからのデータ等)をHDFS、HBase、SqoopあるいはHiveを経由してHadoopに取り込むことは、業務データを統合する上で、とても骨の折れる作業です。

Talend Platform for Big Dataでは、視覚的なグラフィックコンポーネント群や開発環境を提供することで、複雑なコーディング方法を新たに学習したり、コーディング作業をする事無しに、ビッグデータのソースデータやターゲットデータを取り扱うことができます。ビッグデータとの接続は、グラフィカルに表示され、実際のソースコードは背後で自動生成、サービス、実行可能なジョブあるいは独立したジョブとして実装することができます。

データ統合に必要となる全てのTalendのコンポーネント(アプリケーション、データベース、サービスおよびマスタデータ・ハブを含む)が内包されているので、あらゆる種類のソースデータを殆ど全てのターゲットに対して連携させることが可能です。完全なリストは、データ統合機能をご参照下さい。

ビッグデータの取り扱い

開発者が、短時間に膨大な量のデータに対して、基本的な変換処理や分析を行えるようになるツールは、様々に存在しています。Apache Pig および HBaseは、HDFSクラスタ内で、データの比較、フィルタリング、評価検証、グルーピングするためのスクリプト言語を提供しています。それらはMap Reduceの上位層にあたり、Map Reduceを使い易くしてくれています。しかし、Talendはこのスクリプトをデータフローを表現するだけで、グラフィカルに扱えるようにコンポーネント化し拡張しており、スクリプトをより迅速に作成、また開発チーム内で共有することができるようになっています。

データ分析担当者を支援

データ分析の担当者や専門家は、ビッグデータを業務課題の解決に実際に役立つ情報に転換し、また分析結果を提供するという課題に直面しています。データ無しには何も始まりません。Talend Platform for Big Dataは、複雑なコーディング等無しに、BIツールとウェアハウスやサプライデータをつなぐ重要な役割を果たします。

なぜTalendとビッグデータなのか?

Talendはビッグデータに関わる開発をシンプルなものにし、開発チームやプロジェクトに必要な解決方法を提供することができます。従って、Talendのユーザーは本来のあるべき課題に集中することができるのです。「データの量に関係なく、データをどのように利用することが最も自分達のビジネスに役立つのか、、、?」

Talendはビッグデータのインプリメンテーションに直面している技術チームに確実な恩恵をもたらします。

  • 適用範囲の拡大:ビックデータの開発をシンプルに
    Talendにより、多くの開発者がビッグデータに関われるよう、技術的障壁を下げ、シンプルなものにすることができます。ビッグデータ技術を実装し適用するためにもはや特殊な技術力は必要ありません。課題を解決するためのソリューションに集中することで、生産性は格段に向上します。

  • 生産性の向上:ビックデータの適用を1週間ではなく1時間で
    Talendの開発スタジオは、開発者がコンポーネントをドラック・アンド・ドロップするだけでビッグデータ処理を開発することが可能であり、その生産性を大幅に向上させることができます。これは分単位の作業であり、数日あるいは数週間といった作業ではありません。

  • ビッグデータの統合とサービスイネーブルメント
    Talend Platform for Big Dataは、ビッグデータ処理に必要となる機能に加え、450以上ものコンポーネントを装備しており、ほぼ全てのアプリケーション、ウェアハウス、データベースをサポートすることが可能です。さらにビッグデータジョブを、自己完結実行型あるいはスケジュールタスクとすることで、サービスイネーブルとして提供することも可能です。

  • ビッグデータの重複と連関を分析
    Hadoopのマッシブパラレル特性を生かして、数百万レコードに対してマッチングをかけられるコンポーネントを提供しているのはTalendが唯一です。

  • ビッグデータの統合: ビッグデータ、スモールデータ、そしてあらゆるサイズのデータ
    データフローに対して、ソースやターゲットが何であれ、ビッグデータ・クラスタは、従来のデータ統合処理から見れば異質な存在です。Talendにより、開発者はHDFSにおけるより高度なビッグデータに対するクエリやスクリプトを、従来のようなデータ移行やデータ連携をさせる方法で、ビジュアルに実現することができます。また、その柔軟性の高さにより、ビッグデータ・プラットフォームと従来からのリレーショナル・データベースを併存させまた移行させることができるので、既存のデータ・アーキテクチャとNoSQLデータタイプを統合することもできるのです。

  • 将来性: オープンソースであるがゆえの一貫性
    Talendはオープンソースでビッグデータ統合ソリューションを提供する唯一のベンダーです。オープンソースであることに業界の評価が移りつつある中、唯一Talendだけが新しい技術に追いつき、また、チャレンジし続けていると言えます。

サポートするディストリビューション

TalendはメジャーなHadoopディストリビューションをサポートしており、ジョブによって使い分けたり混在して利用することもできます。サポートするディストリビューションには以下があります。

  • Apache
  • Cloudera
  • Greenplum
  • Hortonworks
  • Mapr

機能のまとめ

Talend Platform for Big Dataは、ビッグデータを統合し充実させるために必要な全ての機能を提供します。主な機能は以下の通りです:

ライセンスタイプと保証
オープンソースGPLライセンス

GNU General Public License は、GNUプロジェクトのフリーソフトウェアの配布に関する法的な条件を規定するライセンスです。

GNU GPL ライセンスの目的は、以下の権利をユーザに保証することです:
- 何ら制限なくあらゆるユーザに当該ソフトウェアを実行する権利
- 当該ソフトウェアの機能の分析を行い、他の要件に対してそれを適用する権利

当該ソフトウェアを改変した者がそれを配布しようとする場合は、GPLライセンスの規定に従い配布しなければなりません。

GPLライセンスの全文は、以下でごらんいただけます:http://www.opensource.org/licenses/gpl-2.0.php

ソースコードに対するアクセス

Talend Open Studio のソースコードは以下から入手できます:
http://www.talendforge.org/trac/tos/

完全に透明性と一貫性を保つため、Talend はご要望のあったお客様に対して、商用ソフトウェアのソースコードもご提供いたします。

サブスクリプションライセンス

「企業向け」の製品は、オープンソース製品を機能強化(下記参照)し、サービスを追加したものとなっており、商用ライセンスに従って提供されます。

Talendの価格モデルは、透明性と予測可能性を高めるものです。即ち、データ量や将来追加で必要となるであろうコネクター類や CPU数に依存するのではなく、Studioを使う開発・運用担当者数と機能レベル(どのエディションを選択するか)、およびサブスクリプション期間にの み依存します。

このサブスクリプション方式は、対投資効果を高めるものです。即ち、プロジェクトの範囲や担当者の状況に合わせて、毎年ライセンス数を増やすあるいは減らすことができます。

Talendのソリューションはより安価に導入、維持、またサポートができます。即ち、同等のプロプラエタリなソリューションに比して50~80% のコスト負担で済むと言われています。

製品サポート

オープンソース・ソフトウェアは、多くの協力的な開発努力の結果出来上がっているものであり、最終的なコードは様々なリソースを組み合わせて提供さ れています。従って、コードに対する変更が十分な管理とコントロールを持って行わなければ、最終的なソフトウエアがオリジナルの作成者の権利を侵害してし まうことに成りかねません。

エンドユーザは、意図的ではないにせよ、このような侵害があった場合、訴訟や賠償を求められる可能性があります。

Talendは、サブスクリプションのお客様に対して、契約上の補償条項をお付けしています。即ち、もしTalendのコードが第三者の権利を侵害していた場合、それに対する訴訟や賠償に対してTalendが擁護を行うというものです。

 
サポートおよびドキュメント
コミュニティベース: フォーラム、バグトラッカー

Talendのユーザコミュニティは、数万人のプロフェッショナルが参加する非常に活発なものです。コミュニティからは以下のような貢献をいただいています。

  • 新バージョンに対するテスト、品質チェック
  • 新機能に対するリクエスト
  • 製品の翻訳とローカリゼーション
  • フォーラムを通したサポートや情報交換
  • 新しいコンポーネント、コネクター、ジョブ、モデルおよびその他プラグインの開発ならびに共有。

Talend Exchange は、コミュニティメンバーが自分で作成したプラグインを公開し、他のユーザとシェアするための場です。これらの提供物の多くは、TalendのR&Dチームによる十分な製品検査と機能強化を経て、最終的に製品組み込まれます。

さらに、Talendは、Eclipse ならびに Apache のメンバーであり、多くのキーとなるオープンソースプロジェクトに貢献しております。

SLAに基づくエンタープライズサポート

Talendサポートサービスにより、R&Dチームと密接なやり取りをしているTalend内部の専門技術者からの支援を受けることができます。 これにより、サブスクリプション版のお客様は効果的で、安心、確実な支援を享受できます。サポートには3つのレベル、即ち、シルバー、ゴールド、プラチナ があり、不具合のご報告に対する初期のレスポンス時間や、パッチを提供するまでの時間等に対する補償が異なっています。

http://www.talend.com/professional-support/support.php

ユーザガイド、リファレンスガイド

Talend Open Studio のドキュメントはPDFフォーマットで、無償でダウンロード可能で、英語版、フランス語版、日本語版が用意されています。ユーザガイド(276ページ程度)およびコンポーネントリファレンスガイドは、以下よりダウンロード可能です。
http://www.talend.com/resources/documentation.php

これらのガイドの印刷版は、Amazon.comからも購入いただくことが可能です。
http://www.amazon.com/Talend-Open-Studio-Guide-Version/dp/1453632077/ref=sr_1_1?ie=UTF8&s=books&qid=1296040035&sr=1-1

さらに、様々なチュートリアルをご用意しておりますので、是非ご覧ください。

チュートリアルはこちらから: http://www.talendforge.org/tutorials/menu.php

 
モデリング / ドキュメンテーション
ビジネスモデラ

ビジネスモデラは、(マイクロソフトのVisioのように)視覚的に操作できるツールです。データ統合プロセス を支援するドキュメントや技術項目を構造化し、業務的なダイヤグラムに表現することで、異なったチーム(設計、開発、テスト、運用等)が共通のモデルと ツールを利用することができるようになります。

例えば、業務ユーザは、データ統合に関する要求をビジネスモデルを使って表現します。IT部門、運用部門のメンバーは、業務要件をよ りよく理解できると同時に、それをシステム上のプロセス(ジョブ)に変換していきます。システム上の実装段階が終了した後でも、ビジネスモデルは容易に変 更可能で、他の関係者に対して開発進捗状況を提示し、フォローアップを行うことが可能です。DBAは、ビジネスモデルを、必要なDB接続メタデータを共有 化することに利用でき、また、システムアーキテクトは、データ統合に必要な要件を加味して全体設計を行うことができます。

ビジネスモデルの設計は、成功を確たるものにするため、データ管理またはデータ統合プロジェクトの初期段階で適用すべきベストプラク ティスの一つです。なぜならば、ビジネスモデルはしばしばプロジェクトのボトルネックや弱点を早期に発見し、また解決することに役立ち、延いては予算超過 や追加投資を避けることに繋がるのです。

AutoDoc

当機能により、全てのジョブに対する詳細な技術ドキュメントをリクエストベースで生成することができます。このドキュメンテーション機能は、ジョブ のメタデータ(作成者、バージョン、ステータス、更新日等)を収集し、ジョブとそれに関連する全てのコンポーネントの全てのパラメータを容易に利用可能な フォーマット(HTML/XML)でグラフィカルに表示します。

このドキュメントには独自のコメントを追加してエンハンスすることができます。
Auto Doc+

AutoDoc+ により、技術ドキュメント(全項参照)をジョブの各バージョン毎に作成できるようになります。ジョブを保存すると、ドキュメントは更新されリポジトリに格納され、自動的に他の全てのユーザで共有化を図ることができます。

AutoDoc+ ではさらに、独自のロゴや会社名を追加したり、CSSをカスタマイズすることで配色を変更する等、ドキュメントの表示方法をカスタマイズすることができます。
 
ジョブ開発
Jobデザイナ

Jobデザイナは、グラフィカルなパレットで表現されたコンポーネントおよびコネクタを使って、実際のデータ統合プロセスを視覚的に表現する機能を提供します。
データ統合プロセスは、コンポーネントとコネクタを視覚的なワークスペースに配置し、リンク線でそれらを結んで関連付けを行い、また、それらのプロパティを設定することで、作成することができます。

Jobデザイナには多数のコンポーネントが含まれており、殆どのデータ統合、データ移行、データ同期処理におけるソースおよびター ゲットシステムへのアクセスをこれらのコンポーネントで賄う事ができます。コンポーネントおよびコネクタは、データ処理、データの管理、ならびにデータフ ローに関するあらゆるタイプのタスクと処理に対応しています。コネクタは、データ統合、データ移行、データ同期におけるソースおよびターゲットシステムの データに対する、接続およびread/writeを行う機能を提供します。パラメータは、ジョブの中でコンポーネントを選択した際に設定するか、もしくは メタデータマネージャ(リポジトリ)から反映させることができます。
複雑なコンポーネントには、ユーザのジョブ設計を支援するため、独自の直感的なグラフィカルインタフェース、もしくは組み込み型のウィザードが備わっています。

ジョブ設計の理解し易さを維持するため、ジョブのダイヤグラムはサブジョブに分割することができ、また、ジョブ実行の順番を定義する ため親子関係を持たせることができます。様々なジョブフロー設定が可能なことに加え、オーケストレーションコンポーネントにより、ジョブフローの組み立て が可能です。組み込み型のコンソールビューを使って、ジョブの実行状態、パフォーマンスのチェックとトラッキングをStudioから直接行うことができま す。

コンポーネント

TalendはあらゆるIT環境にアクセスするための、業務的、技術的なオープンソースのネイティブなコネクタを提供します。豊富なコネクタの提供 は、アプリケーションとデータベースの相互接続を実現する上での鍵となるものです。即ち、複雑多岐に渡るデータ構造を、比類ないパフォーマンスでブリッジ ング可能にするのです。コンポーネントは拡張を続け、Talendのオープンソースデータ統合、データ移行、データ同期といった機能を充実したものにして います。現在550以上のコンポーネントが利用可能で、その60%は、Talendコミュニティで設計・開発されたものとなっています。

Talend Exchange (http://talendforge.org/exchange/) で、外部で開発されたコネクタとコンポーネントをシェアすることができます。ここに提供されたコンポーネントは、TalendがQAと最適化を実施した後、ネイティブに製品に組み込まれ、サポート対象となります。

http://www.talendforge.org/components に正式にサポートされているコネクタのリストがあります。
ETL機能

ETL (Extract, Transform & Load) は、Talendのデータ統合ソリューションのデフォルトのモードとして利用されています。これは、フローモデルに基づいて、逐次的にデータを処理すると いうことになりますが、ETLモデルは特に、異なったソースシステムが混在する環境で、それらをターゲットシステム (webサービス、ファイル、データベース、MOM、業務アプリケーション等) にデータを統合したいといった場合に適用されます。

ETLモードは、バッチおよびリアルタイム処理いずれにも用いることができます。ETL処理は処理効率を高めるため、並列で実行させることが可能です。

Talendの独自アーキテクチャは、単独の処理プロセスを生成する方式のため、実行エンジンに依存するものではなく、様々なサーバ (社内、社外いずれでも)に展開することができます。従って、ETLプロセスを最大限データソースに近い場所で実行させることで、アクセス時間やネット ワーク負荷を軽減し、ボトルネックを排除していくことが可能となります。

同じジョブにおいて、最大限のパフォーマンスを得るために、アーキテクチャ上の如何なる制約を受けることなく、ELTアプローチ (次項参照) を組み合わせることができます。

ELT機能

Talendのデータ統合ソリューションは、ELT (Extract, Load & Transform) モードもサポートしています。これは、ターゲットとなるDBMS上に直接的に一連の操作 (Union, Expect and Intersect 操作) を実行します。

このモードは、単一のシステム環境(1つのデータベース)に対してのみ可能となります。このモードは、物理的に十分なリソースが用意 できる、例えばTeradata、Netezza といった、 「データウェアハウス アプライアンス」 環境において、非常に大きなボリュームのデータを処理する場合に特に推奨されるモードです。

同じジョブにおいて、最大限のパフォーマンスを得るために、アーキテクチャ上の如何なる制約を受けることなく、ETLアプローチ (前項参照) を組み合わせることができます。

バージョン管理

マニュアルでのバージョン管理機能により、Talend Studioにおける生成物のバージョン管理が容易にできます。

ジョブが生成された際、メジャーおよびマイナーバージョン番号が自動採番され、経時と更新の際、Talend Studioのデザイナ部分にある専用のパネルから容易にバージョン番号を上げることができます。

Studioで作成された全ての生成物はバージョン管理されます。例えば、ビジネスモデル、ジョブ、ルーチン、メタデータ、ドキュメント等です。

バージョン管理は一般的に、生成物を再利用可能にする、あるいは必要な場合に過去のバージョンに遡る、といった場合のベストプラクティスの一部です。

共有リポジトリ


共有リポジトリ(あるいはメタデータマネージャ)は、データ統合プロセスにおける全ての関係者で共有すべき、あらゆるプロジェクト情報を集め、一つの集中化したリポジトリとしたものです。

Studioを利用する際に、Talend Administration Center で定義されたロールと権限に応じて、ユーザにプロジェクトに対するアクセス権限が付与されます。

共有リポジトリは、データ統合プロジェクト関係者のチームワークとコラボレーションを可能にします。Talendで生成される生成 物、即ちジョブ(プロセス)、ルーチン、メタデータ定義(例えばソースまたはターゲットシステムに対する接続情報)等を格納し、共有化できるようになりま す。

共有リポジトリは、業界標準のソース管理システム(Subversion)に立脚しており、全ての生成物を格納し、また、これらの全てのバージョンを管理できるようになっています。

自動ロックシステムは、他のユーザが同じジョブを同時に変更できないよう、ジョブを効果的にロックすることを保証するように設計されています。

Version 4.0 からは、Subversionの機能をフルに生かし、異なる組織間での利用、チェックイン/チェックアウト、手動または自動コミット、コメント付加機能等が利用できるようになりました。

データビューワー

Talend上でジョブを開発する際、ソースまたはターゲットシステム上の様々なコンテンツ(ファイル、DB、その他)の参照が必要になるはずで す。データビューワーは、アプリケーション、即ち、txtやcsvであればNotepad、データベースのテーブルならSQLクエリブラウザ、.XLS ファイルならMS Excel、さらにhtml ブラウザ等といたものを利用せずに、直接ソースまたはターゲットシステムのデータをドリルダウンすることを可能にする機能です。
複数の異なるツールを用意して、データの存在するシステムにアクセスに行くという煩雑さも無く、データビューワーを使えば目的とするソースまたはターゲットシステムのデータに直接アクセスすることができます。

コンポーネントを右クリックすることでデータビューワーを直接呼び出せるので、大幅な時間削減が図れます。データ統合プロセスを開発中、ソースまたはター ゲットシステムにあるデータのフォーマット(Excel、DBテーブル、CSV等々)を意識せずにデータを参照できるのは使い勝手よいものです。
ウィザード機能
ダイナミックスキーマ

ダイナミック スキーマ により、構造や数が不明なカラムを扱うジョブの設計を、行うことができます。開発者の選択により、ダイナミックカラムをパススルーモードでターゲットに直接マッピングさせることもできます。

この機能は、非常に多くのカラムをレプリケートする、もしくは1対1にマッピングするといったアプリケーションで主に利用され、この タイプのジョブ設計を容易なものにします。例えば、全てのテーブル構造を知ることなく、数百ものテーブルをもったデータベースのマイグレーションを、単一 のジョブで行いたいといった場合です。

インパクト分析

インパクト分析は、変更後の影響範囲を把握する機能です。
この機能は、メタデータマネージャで利用可能です。インパクト分析はあらゆるメタデータ(データベース、ファイル等)の全てのカラムに対して可能です。イ ンパクト分析の結果は、グラフィカルでインタラクティブなレポートとして作成されますが、カラムをトラックダウンすることで、そのジョブにおけるソースか らターゲットシステム全体で、当該カラムに対して行われる全ての操作を確認することが可能です。

このレポートはHTMLファイルにエキスポートできます。

データリネージ(来歴分析)機能

データリネージ機能は、変更が発生した箇所を把握するための機能です。

この機能はメタデータマネージャから利用でき、全てのメタデータ(DB、ファイル)に対して適用できます。データリネージ機能により、ジョブ内の目的とするコンポーネントから、元のソースまで遡って変換処理をトレースした結果がレポートされます。

このレポートはHTMLファイルにエキスポートできます。

ジョブ差分検出機能

ジョブ差分検出機能は、2つの異なるバージョンまたは異なるジョブの差異を把握する機能です。

ジョブ差分検出機能は、Talend Integration Suite Studio に組み込まれている機能です。ジョブ差分検出機能の結果は、視覚的でインタラクティブな形で、html もしくは xml で差異がハイライトされて表示されます。

この例では、2つのジョブにおけるtFileInputDelimited コンポーネントの区切り文字設定が異なっている、即ち、version 3.2 では \t 、version 4.2 では \nである、ということをレポートしています。

ジョブレット

ジョブレットにより、ジョブ(またはサブジョブ)をジョブレットコンポーネントに入れて、部品化することができます。操作は簡単で、再利用したいま たはジョブの部品化したい個所を選択し、メインメニューの 「Refactor to Joblet」 をクリックすれば完了です。

自動的に選択されたコンポーネントが一つのジョブレットに折りたたまれ、画面上、シンプルに見えるようになります。このジョブレット はフォルダツリーにある特定のジョブレットフォルダに格納され、共有化を図ることができ、他のジョブで容易に再利用することが可能になります。

ジョブレットは冗長的で複雑なジョブの保守性を大幅に向上します。

さらに、「インパクト分析」を使えば、どのジョブが定義済みジョブレットを利用しているかを分析することができます。

リファレンスプロジェクト機能

リファレンスプロジェクト機能は、プロジェクト間で生成物(ジョブ、ルーチン、ドキュメント、メタデータ等)の冗長な複製を避けることを支援する機能です。

「従」プロジェクトは一つまたはそれ以上の「主」プロジェクトに紐付けられ、主プロジェクトの生成物を継承します。
従プロジェクトで主プロジェクトから引き継がれた生成物は、読み取り専用となり、再利用や実行は可能ですが、変更はできません。
主従プロジェクトは密接にリンクされているので、主プロジェクトの生成物に変更があった場合、直ちに従プロジェクトの生成物も更新されます。

リファレンスプロジェクト機能は、プロジェクト間で共通する生成物(ジョブ、テンプレート、メタデータ)を他のプロジェクトにもシェ アさせるためのものです。この機能により、データ統合プロジェクトでは30% も重複していると言われている生成物の、再利用化を促進し、保守に対する労力を大幅に削減することができます。

チェンジデータキャプチャ(CDC)

データウェアハウスは、分析目的のため、複数のデータベースからデータを抽出し、複数のターゲットシステムにデータを転送する処理を行っています。 しかし、これは同時に、膨大なデータの抽出と転送処理により、システムリソースと時間が大量に消費される可能性があることを意味しています。

変更が起こったデータのみをリアルタイムに検出する機能は、「チェンジデータキャプチャ(CDC)」 として知られています。変更の検出は、システム間のデータトラフィックを低減し、かつ、ETLに必要な時間を低減します。

TalendのCDCアーキテクチャは、パブリッシャ/サブスクライバ モデルに立脚しています。パブリッシャは、データ変更を検知し、サブスクライバ(Talendのジョブ)に利用可能にします。サブスクライバは、パブリッシャから取得した変更データを利用します。

この機能は、変更レコードをリアルタイムに検知し、変更のあったデータを即時に複数のサブスクライバジョブに転送することで、ETLもしくはオペレーショナルなデータ統合におけるデータロードおよびデータ更新に必要な時間を短縮するものです。

Talendのチェンジデータキャプチャ機能は、広く一般的に利用されている方法、即ち、トリガ および REDOログ による方式を提供しています。何れが利用可能かは、データベースのタイプに依存します。

ビジネスルール

ビジネスルールは、業務ユーザが作成した要件書を、ITスタッフが解釈しシステムに設定したものと一般的に定義されます。

Talend Integration Suite には、独自のビジネスルールをユーザが設定するための、ビジネスルールエンジンが組み込まれています。ユーザは、マーケットをセグメントするためのクライ テリア(年齢、地域等)を定義、Excel またはDrools Guvnor インタフェースを通して、WebベースのTalend Administration Center から直接ビジネスルールを設定することができます。

Drools Guvnor インタフェースを利用することで、業務担当者はグラフィカルエディタを利用して素早く直接的に、ルールの作成・編集、ルールに対するアクセスの制御、ルー ルのバージョン管理、そして変更を行うことができます。設定したルールは開発したジョブから呼び出しテストすることができます(次のスライド参照)。
 
テスト
コンテキスト管理

コンテキストにより、ほぼ全てのコンポーネントまたはジョブのパラメータを外出しすることができます。これによりユーザは、開発、テスト、本番時に異なったパラメーター設定でジョブを稼動させることができます。

コンテキストは、数に制限なく、あらゆるタイプの環境(開発、テスト、本番等)に対して必要なだけ定義することができます。

どの設定のコンテキストを利用するかは、設計時、実行時など何時でも変更することができます。

また、パラメータ値は設計あるいはテスト時にダイアログボックスを使って、変更することが可能です。さらに、専用のパラメータローディングコンポーネントを利用することで、既定の設定を動的に書き換えることができます。

ディスタントラン機能

ディスタントラン機能は、Studioから直接、ジョブを他のサーバ上でリモート実行させるための機能です。

この機能は、ジョブをテストする局面において特に有用です。例えば:

  • 本番環境に近いコンフィグレーションで、
  • 様々なオペレーティングシステム上で、
  • 特定のシステムの条件下で、

環境を移行する複雑さを回避することができます。

ターゲットとなるシステムは、実行時にStudioから動的に選択可能です。リモート環境での実行であっても、通常のデバック、トレース、リアルタイム統計処理といった機能は有効です。

 
デプロイ
Talend Administration Center
Jobコンダクタ

Jobコンダクタにより、データ統合ジョブの実行方法を設定することができます。これは、ジョブを手動で起動す るのか、時間起動するのか(Team Edition以上)、あるいはイベントベースで起動するのか(Professional Edition 以上)といった実行スケジュールを集中的に設定するためのインタフェースを提供します。

Jobコンダクタのモジュールは、ジョブを実行するサーバ毎にインストールされる 「JobServers」 またはエージェントと呼ばれる機能により実行されます。

エージェントがセットアップされると、Jobコンダクタで、全てのハードウェアリソース(利用可能なCPU、RAM、HD等)をリアルタイムにモニタする ことができ、最大限使用可能なサーバを利用した、グリッドでのジョブの分散実行を支援します。また、JMXをネイティブでサポートしており、40以上の指 標を利用してモニタが可能です。こういった機能により、ワンクリックで、ジョブをあらゆるサーバ上に展開することができるのです。
コマンドライン

コマンドラインモジュールを利用することで、Jobデザイナで作成した統合プロセスを、Talend StudioのGUIを使わずに、更新または実行させることが可能となります。

Talendのコマンドラインモジュールはコマンドラインオプションを提供しており、開発者および管理者が容易にバッチ処理を行えるようになります。

Talend Studio および Talend Administration Center で利用可能なジョブ管理機能の、ほぼ全てがコマンドラインで利用できます。これには、例えば、ジョブのプロパティの更新、プロジェクトの本番環境への適 用、ジョブまたはジョブセットのエキスポート/インポートといった機能も含まれます。

コマンドライン機能により、ジョブの依存関係や実行メタデータを含む、膨大で複雑なジョブのデプロイと実行を、容易に短期間で実施することができるようになります。

多数の利用可能なコマンドの簡易説明がヘルプ機能により提供されます。

タイムスケジューラ機能

タイムスケジューラは、指定された日時(月次第一月曜日、毎火曜日等)もしくは定期的にジョブを実行させるための機能です。タスクは、ジョブの実行に必要な情報(プロジェクト名、ジョブ名、ジョブバージョン、サーバ等)を集中的に管理するために利用します。

タスクはスケジュールされた日時になると起動され、ジョブは指定されたサーバ上で指定された日時に、自動的に展開され実行されます。タスクの起動状況、実行の成功/失敗といった状況は、ジョブコンダクタから直接モニタリングすることができます。

Professional Edition 以上では、イベント/ファイル トリガのスケジューリング機能が追加されています(イベントスケジューラのスライド参照)。
イベントスケジューラ機能

イベントスケジューラは、時間ベースのスケジューリングを、リアルタイムでの対応に拡張するものです。

イベントリスナは、ジョブの実行をオンデマンドまたはイベント発生をトリガにして開始させるための機能です。

イベントは、ファイルが作成された、削除された、変更された、といったファイルトリガに基づくもの、または  「wait for」 コンディションを利用するSQL実行に基づくものであることができます。該当するイベントが検知されると、タスクの実行がトリガされ、ジョブが展開・実行 されます。

どんなタスクにでも容易に新しいイベントを追加でき、自動実行の範囲を拡張することができます。

実行計画機能

実行計画機能は、ジョブコンダクタから直接、さまざまなジョブの実行手順を調整し、また、エラーリカバリを容易に行えるように支援する機能です。実行計画機能は、実行順序を定義している異なるタスク間の依存関係をアウトライン出力します。

タスクは配下に従属するタスクを持つことができ、それらは親子関係をもった階層構造で定義されます。

実行計画そのものがスケジューリング可能であり、また、実行環境を定義するパラメータに従って、ジョブコンダクタから実行させることができます。

ロードバランシング機能

Girdコンダクタ(Jobコンダクタからアクセスできる)は、統合プロセスをグリッド環境で実行することを可能にし最適な拡張性と可用性を実現し ます。Gridコンダクタは、システムタイプ(CPU, OS等)に依存しないリソースのグルーピングを可能とする仮想サーバ化機能に基づきます。
タスクは、単一の実行サーバではなくGridコンダクタの仮想サーバにアサインされます。

実行サーバ群のリソース消費状況を定常的に監視することにより、Gridコンダクタは、従来のシングルサーバアプローチで発生するボトルネックを解消して、全てのジョブ実行が使用可能なリソースを活用してトリガ時間にスムーズに実行出来ることを担保します。

多くのジョブを多重実行するような場合、または非専用サーバを使用しなければならない場合、リソース競合についての懸念は軽減できるかもしれません。Gridコンダクタは、リソース状況が実行するに足らないと判断された場合自動的にフェイルオーバーを実施します。

高可用性

高可用性は、複数のJobコンダクタとジョブ実行サーバ群にジョブをデプロイすることにより実現します。

一方でデータベースのクラスタリングは、フェイルオーバーによる実行停止の抑制を担保します。
フェイルオーバー機能
FileScale

Talend Integration Suite MPxは、マルチサーバ、マルチCPU、マルチコアアーキテクチャにおいて、コードとサブプロセスを分割し、処理の並列実行を可能にします。超並列処理機 能は、エンタープライズサーバや複数のプロセッサ環境において処理時間を劇的に短縮します。

Talend Integration Suite MPxのユニークな機能であるFileScaleテ クノロジは、処理実行サーバのアーキテクチャを有効利用し、低レベルソートアルゴリズムによりパフォーマンスを最大化します。FileScaleテクノロ ジは、巨大データファイルに対してバルク処理を行います。JVMや旧来のデータ統合エンジンの制約に囚われない最大限のアドバンテージを提供します。

FileScaleテクノロジのソートとデータ変換は、データ処理において革新的で高パフォーマンスな数学アルゴリズムに基づきま す。FileScaleテクノロジは、あらゆる粒度の処理におけるデータ処理の限界を打破し素晴らしいパフォーマンスを達成します。Sun Microsystemsのワークベンチを参照ください:http://blogs.sun.com/aja/entry/talend_s_new_data_processing

Hadoopサポート

Apache Hadoopは、分散型データ集中アプリケーションのためのオープンソースJavaフレームワークです。Map Reduceアーキテクチャに基づき比較的安価なサーバによるグリッド環境にてアプリケーションが数千ノードと数ペタバイトのデータを扱うことを可能にし ます。Talend Integration Suite MPxは、あらゆるレベルでにスケールが可能なHadoopをネイティブにサポートする機能をもち、あらゆるデータタイプをサポートします。導入企業は、 自社のHadoopクラスタを、複雑な変換処理を行うために最大限利用することが可能です。

Hadoop用のコンポーネントセットは、Studioの「パレット」から使用することが可能であり、Hive同様、HDFSに対するread/writeが可能であり、ELTとSQLテンプレートの機能を提供します。

 
モニタリング機能
AMC

Talend Activity Monitoring Consoleは、利便性の良いグラフィカルな集中監視ツールです。

ログ情報を一極集中して詳細な監視機能を提供し、ジョブ間の依存性を把握し、予測できない問題発生を抑制しシステム管理上の意思決定を支援します

Activity Monitoring Consoleは、ジョブのイベント(成功、失敗、警告等)、実行時間と処理量を集約された単一のコンソールで監視すること可能にします。

このツールは、Studio内に完全に統合されたスタンドアローンツールとして使用することが可能です。

ダッシュボード機能

ダッシュボードは、Activity Monitoring Consoleの機能をWEBの仕組みを使って提供します。ユーザはWEBブラウザを使用してジョブ実行状況に容易にアクセスすることが可能です。

ダッシュボードはジョブのパフォーマンスと実行状況指標を視覚化し、運用管理者は統合プロセスの過去状況と現状を確認することが可能です。

また、収集されたログを統合して詳細な監視機能を提供し、ジョブ間の依存性と含まれるコンポーネント内容を把握し、タスクの実行情報をタイムリーに提供します。予測できない問題発生を抑制しシステム管理上の意思決定を支援します。
エラーリカバリ機能

ジョブ運用作業に於いてバックアップとリカバリ作業は手間のかかるものです。Talend Integration Suite Studioは、ジョブ開発時にリカバリチェックポイントの設置を可能にします。

ジョブ実行中に問題が発生した場合、設定されたチェックポイントから再開することが可能です。ジョブの開発者は、チェックポイント機能である「on-failure」を使用することで、特定のエラー発生時の対処を施すことが可能です。

リカバリチェックポイントにより、トリガコネクションで設定されたデータフローを適切に開始することが可能です。これはまた、問題発生からの再開に要する時間と手間を最小限にすることを目的としています。

エラーリカバリチェックポイント機能は、問題発生時にジョブを最初から再実行するのではなく、直近の(または問題発生以前の幾つかの条件に合致する)チェックポイントから再開することを可能にします。
データプロファイリング基本機能
データ構造比較及び同期
データベース分析(コンテンツ、カタログ、スキーマ)
テーブル分析(カラムセット、依存関係、DQルール)
カラム分析
冗長分析
カラム相関分析(数値、時間、名詞)
検査結果の視覚的表示(テキストとグラフ)
データのドリルダウン
カスタムタスクの追加
 
データプロファイリングの高度な機能
SQLパターンライブラリ
正規表現パターンライブラリ
パターンテストビュー
データパターン発見(パターン出現頻度、Soundex出現頻度)
パターンのカスタマイズ
指標(シンプル、テキスト、サマリ、高度な統計と数値指標)
SQLやJava中の指標のカスタマイズ(カウント、実際値、マッチング、頻度)
Talend Exchangeでの指標とパターンの共有
SQLのビジネスルールによるテーブル分析
データクオリティの閾値
分析結果のデータマート保存
バッチ実行の分析
分析履歴
レポート生成
JasperReportsによるXMLベースのレポート
 
データクレンジング
Talend Integration Suiteとの完全な統合
パターンマッチング
インターバルマッチング
名前、住所のクレンジング
サードパーティ製アドレス検証サービス
あいまいマッチング(Soundex、SoundexFR、Levenshtein、Jaro-Winkler、Q-gram)
レコードマッチング(マッチ、アンマッチ、 サスペクト)
あいまいな重複の除外
閾値の検証
 
レポートとポータル
直感的なWebベースの管理用コンソール
潜在的なプライマリ・キーのレポート
リレーションを失ったテーブルのレポート
Studioが生成したレポート全てへのアクセス
事前定義されたグローバルクオリティゲージ
OLAP分析構造体へのアクセス
クエリのカスタマイズ
レポートのカスタマイズ
レポートのインポート/エクスポート
 
チーム作業と開発の統合
チェックイン/アウト可能な共有レポジトリ
アクセス権管理
LDAPによるユーザ管理
Talend専用Subversion環境によるメタデータ、プロジェクトの管理
Subversion環境によるメタデータ、プロジェクトの管理
Talend Data Qualityデータベース監査
 
データスチュワードシップ(オプション)
ロールに基づくタスク判定
タスクのアサイン
データの整合性問題の解決
データマッチング上の矛盾解決
Webユーザ環境