ビッグデータガバナンスとメタデータ管理を成功させるためのTalendの5本の柱

ビッグデータガバナンスとメタデータ管理を成功させるためのTalendの5本の柱

  • Jean-Michel Franco
    Jean-Michel Franco is Director of Product Marketing for Talend. He has dedicated his career to developing and broadening the adoption of innovative technologies in companies. Prior to joining Talend, he started out at EDS (now HP) by creating and developing a business intelligence (BI) practice, joined SAP EMEA as Director of Marketing Solutions in France and North Africa, and then lately Business & Decision as Innovation Director. He authored 4 books and regularly publishes articles, presents at events and tradeshows and can be followed on Twitter: @jmichel_franco

 

本シリーズの前回の記事では、データガバナンスによりビッグデータイニシアティブを持続可能な成功に導くための6つの鍵を検討しました。 これらの6つのステップは、TDWIが最近発表した「Governing Big Data and Hadoop(ビッグデータの管理とHadoop)」というレポートで明らかにされたものです。 このレポートは、独立した立場から課題とベストプラクティスについて取り上げていますが、Talendによる課題への具体的な取り組みについては明記していません。シリーズ第2回となるこの記事では、前回述べた6つの重要課題に対して、Talend Data Fabricの統一プラットフォームを構成する各主要コンポーネントがどのように対処できるかについて説明します。これを、メタデータ管理のためのTalendの5本柱と呼びます。

Talend Studioで設計するメタデータ

メタデータがなければ、情報サプライチェーンの包括的で活用可能なビューを作成する方法はありません。 メタデータがなければ、情報サプライチェーンの包括的で活用可能なビューを作成する方法はありません。 メタデータは、場合によっては遡ってエンジニアリングすることもできますが、作成後のメタデータを即座にソースで収集、処理、保守、追跡する方がはるかに簡単です。

Talendを使用する場合、データフローはビジュアルなメタデータ駆動型環境で設計されます。 これによって、開発と展開が加速するだけではありません。データフローが実行されると、情報サプライチェーンの詳細なビュー(データの元の場所、保存場所、データポイント間の依存関係)が提供されます。

Map ReduceやSpark等の多くの強力なデータ処理環境は、SQL等の従来のデータ管理標準と違ってメタデータ駆動型ではないため、これはビッグデータの領域では非常に重要です。 Talend Open Studioのような高レベルの抽象化を提供し、ゼロコーディングアプローチを採用しているツールがなければ、Hadoopのデータ駆動型プロセスの管理、ガバナンス、保護は非常に難しくなります。 Talend Open Studioとその集中リポジトリは、常に最新のバージョンのデータフローを維持してデータ設計者や開発者の間で共有し、Cloudera Navigator、Apache Atlas、Talend Metadata Manager等の他のツールにエクスポートして、より広範なデータワーカーに公開できます。この最後の点に関する詳細は後述します。

さらにTalendは、開発者がデータ管理の全ての分野(データ統合、ビッグデータ統合、アプリケーション統合、クラウド統合、データクオリティ及びMDM、セルフサービス型データプレパレーション)を単一プラットフォームで使用することを可能にしています。これによってIT部門は、オンプレミスまたはクラウドの従来のデータとビッグデータの両方で、保存データと実行データの両方についてデータフローのグローバルビューを提供できます。

Talend Metadata Bridgeを使用してデータプラットフォーム全体でメタデータを同期する

Talend Metadata Bridgeを使用すると、開発者はTalend Studio(及び、同様にTalend Metadata Manager)からメタデータをインポート及びエクスポートすることができ、ほぼ全てのデータプラットフォームのメタデータにアクセスできます。 100以上のコネクターが用意されているTalend Metadata Bridgeは、モデリングツール(Erwin、Embarcadero等)、ETLツール(Informatica、IBM DataStage等)、SQL及びNoSQLデータベース、Hadoop、人気の高いBI及びデータ検出ツール(Tableau、Qlik、BusinessObjects等、XMLまたはCobol構造等)からメタデータを取得するのに役立ちます。

これらのブリッジにより、開発者は一度設計したデータ構造を、さまざまなツールやプラットフォームにわたって繰り返し伝播させることができます。 これにより、ほとんどのサードパーティツールやプラットフォームからTalendにデータ形式を変換できるため、標準仕様を容易に適用し、変更を伝播させ、移行を容易にすることができます。 たとえば、Oracleテーブルを使用してTalendにインポートし、それをRedshift等の別のサードパーティプラットフォームに伝播させることが可能です。Talend Big Dataは、従来のETLジョブをネイティブのHadoopプロセスに簡単にオフロードできます。

Talend Big DataによりHadoopのガバナンスの課題に対応する

Hadoopは、データの拡散を加速するよう設計されています。 また、データ、データ操作、及び関連メタデータの単一の参照ポイントとなる従来のデータベースとは異なり、Hadoopは複数のストレージ及びデータ処理オプションを組み合わせています。 さらに、高可用性戦略の一環として、Hadoopは多くのノードにわたってデータを複製し、処理ステップ間に生データの中間コピーを作成するうえで役立ちます。 このため、データ来歴はHadoop内部のデータフローのトレーサビリティと監査機能を提供するために重要です。

しかしHadoopは、オープンで拡張可能なコミュニティベースのフレームワークであるという優れた特長を持ちます。 弱点から、問題に対処し、それを強みに変えるイノベーションプロジェクトが生まれます。Apache AtlasとCloudera Navigatorは、Hadoopにおけるデータガバナンスの特定の課題に対処するための最も一般的なHadoop拡張です。

Talend Big Dataは、Cloudera NavigatorまたはApache Atlas(Hortonworks用)とシームレスに統合し、データフローの詳細なメタデータをこれらのサードパーティのデータガバナンス環境それぞれに公開します。この機能によりTalendは、データフローがHadoopまたはSparkで直接手作業でコーディングされていた場合と比べて一層深みのあるデータ来歴機能によって、これらの環境を強化します。 Cloudera Navigator及びApache Atlasとの統合によって、Talendで生成されたメタデータは、他のデータポイントとの接続、検索、データ来歴用のマップとしての視覚化が可能となり、Talendの開発者や管理者以外にもHadoop環境で許可されたユーザーとの潜在的な共有が実現します。 Tまた、到着またはスケジュール設定された間隔に基づいて特定のデータセットに対してアクション(メタデータの自動分類、保存ポリシーの定義等)を実行することによって、メタデータをより再利用可能なものにします。

たとえば、Talendは、金融サービスやライフサイエンスといった規制の厳しい環境でビッグデータを使用するために不可欠な機能である、Sparkのフィールドレベルのデータ来歴をCloudera Navigatorで提供する最初のベンダーとなりました。

卓越したデータアクセシビリティによりデータレイクを普及する

これまでビジネスユーザーは、データガバナンスを付加価値ではなく管理上の制約として認識していたかもしれません。しかし、データガバナンスには実際には多くのメリットがあります。たとえば、小売店から購入した食品を消費するときには、ラベルを読んだり、適切に包装されていることを確認したりするでしょう。名前、原産地、材料、重量及び内容量、栄養成分等は、食品を消費する前に把握しなければならない事項です。データにも同じことが当てはまります。

TalendがTalend Metadata Managerのビジネス用語辞書を提供することで、データスチュワードは全てのデータのビジネス定義を保持し、アクセス可能なツールや環境(HadoopまたはTableauダッシュボードのHiveテーブル等)にリンクし、最終的にビジネスユーザーに公開できます。同様に、Talend Data Preparationは、誰もがセルフサービスでデータのアクセス、クレンジング、シェーピングを行えるように、独自のデータセットインベントリーを提供します。 セルフサービスはTalendのマーケットビジョンの重要要素であるため、この分野でのさらなるイノベーションを期待してください。

Talend Metadata ManagerによりHadoopを超えてデータフローの管理と監視を実現する

全てのデータソースを1か所で管理することが可能であると考えられていた時代は終わりました。レガシーシステムは保持され、Microsoft、SAP、Oracle等のエンタープライズアプリケーションはコアビジネスプロセスを引き続き運用し、クラウドアプリケーションは拡大し続け、従来のデータウェアハウスと部門別のBIは当面はHadoopのような最新のデータプラットフォームと共存していくことになります。

これらの環境全体でデータフローを管理するために、Talend Data Fabric等の環境のニーズが高まるばかりでなく、データが存在する場所でも、情報チェーンの全体像を把握できるプラットフォームが必要とされるようになります。高度に規制された環境で運営している組織は、監査証跡のためにこれらの機能を義務付けるようになっています。

Talend Metadata Managerは、メタデータの可視性と制御を組織に提供するので、エンドツーエンドのトレーサビリティを備えたエンタープライズ全体の統合プロジェクトでリスクとコンプライアンスを管理できます。 Metadata Managerは、HadoopやTalendで管理されている全てのメタデータと、前述のメタデータブリッジでサポートされている潜在的に全てのデータプラットフォームを、完全なデータ来歴と監査機能を備えたビジュアル情報サプライチェーンに接続します。 これによってTalendは、ビジネスユーザー、そしてデータの完全性、ユーザービリティ、コンプライアンスの担当者を含め、誰もが理解できる言語とデータマップにこの全体像を変換します。

今後も、このTDWIレポートの主要ポイントを共有し、従来のトップダウン方式の権限付けされたデータガバナンスから、今日のボトムアップ方式のコラボレーションによるデータガバナンス構造へと発展させ、データを最もよく知る人々からベストプラクティスをクラウドソースする方法について、詳しく説明します。開催予定のウェビナーにもご登録ください。ウェビナーでは、私とDavid Stodderがレポートの主要ポイントについて説明します。このブログやTwitterアカウント(@jmichel_franco)でも、皆さんのご意見をお待ちしています。

ディスカッションに参加

0 Comments

コメントを残す

Your email address will not be published. Required fields are marked *