データガバナンスとメタデータ管理によりHadoopの道のりを切り開く6つのステップ

article in English

この記事は、ビッグデータとHadoopの管理に焦点を当てた2部構成シリーズの第1回です。

データ駆動の旅に出発する準備ができていますか。 ビジネスケースとプロジェクトの青写真が明確に定義され、デジタルの変革に向けて経営幹部の支援もすでに取り付けています。 Hadoopに基づく最新のデータプラットフォームを実行する準備も整い、チームはビッグデータの明るい展望を組織内でより広く提供するためにスタート台についています。

しかし、まったく新しい挑戦を想像して躊躇しています。ビッグデータのスピードに対応する準備はできていますか。データレイクのデータの拡散から必然的に生じるリスクを制御する準備はできていますか。現在は少数のデータサイエンティストだけがアクセス可能なデータラボを、誰でもアクセスでき、重要なビジネスプロセスにシームレスに接続する、広く共有されるセルフサービス型のセンターオブエクセレンス(CoE)に拡張する準備はできていますか。

好むと好まざるとにかかわらず、セキュリティ、文書化、監査、トレーサビリティに関してエンタープライズが抱える従来の課題に対処しない限りは、取り組みを成功させる準備が整っているとは言えません。その一方で、ビジネス上の大きなメリットをもたらすための最新の方法として、データガバナンスによりHadoopイニシアチブを活用できるという朗報があります。

多様な新しいビッグデータの管理における6つ緊急課題への対応

Hadoopのデータガバナンスに関連する潜在的な利点とベストプラクティスを完全に理解するためにTalendが委託したTDWIのレポートでは、ビッグデータプロジェクトの成功を保証するための6つの柱が明らかにされています。

1.  データを危険にさらすことなく、幅広いユーザーにビッグデータのアクセシビリティを提供する。 セルフサービス型のアプローチとツールにより、ITリーダーは、データワーカーやアナリストが自律的に独自のデータプロビジョニングを実行できるように推進できます。しかし、このサービスを管理された拡張性の高い方法で提供するガバナンスの枠組みを最初に構築することなく、データ準備ツールをビジネスユーザーに引き渡すことは適切ではありません。

2.  スマートな発見と探索によりデータの取り込みを加速する。既存のデータプラットフォームを使用して新しいデータセットをオンボードし、適切なオーディエンスに公開するには、数週間、場合によっては数か月かかります。 現在、新しい「スキーマオンリード」のアプローチにより、ITとデータの専門家はデータのオンボードをデータ到着時に実行できます。 これが完了すると、すぐにデータワーカーのコミュニティ全体がデータに即時にアクセスできるようになり、いつでも臨機応変にデータの発見、モデリング、接続、調整を柔軟に実行できます。

3.  これが完了すると、すぐにデータワーカーのコミュニティ全体がデータに即時にアクセスできるようになり、いつでも臨機応変にデータの発見、モデリング、接続、調整を柔軟に実行できます。メタデータは、データ駆動型アプリケーションの重要要素であり、文書を埋め込むことでデータアクセシビリティを高め、生データにコンテキストを組み合わせて解釈を強化し、異種データポイント間を接続してデータから意味と知見を引き出します。 さらに、情報サプライチェーン全体の制御とトレーサビリティを実現します。現代のデータプラットフォームは、メタデータのキャプチャー、ステッチ、クラウドソース、及びキュレーションの新しい方法を提供します。

4.  データ管理の分野を共通のプラットフォームに統合する。 サイロはエンタープライズデータの価値を破壊し、品質とセキュリティの両方のリスクをもたらします。 T多様な統合形式にわたって一元的な制御とアクセスを確立しながら、データユーザーの責任を分散する必要があります。

5.  Hadoopの柔軟性を検討する一方で、ガバナンスの課題に注意する。 Hadoopは、より大規模で多様なデータをより迅速に処理して、より俊敏な方法でより多くのユーザーに配信できます。 しかし、極端に大規模、高速、広範囲での運用が可能になった現在、データのトレーサビリティと監査性、保護、文書化、ポリシー適用等を習得する必要があります。これらの課題に完全に対応するため、メタデータ駆動型プラットフォームと併せてApache AtlasやCloudera Navigatorのような環境を検討する必要があります。

6.  変化、継続的なイノベーション、多様性に対する準備を整える。ITシステムは、モノリシックからマルチプラットフォームへと進化しています。SQLデータベースはもはや、データのモデリング、保存、リンク、処理、アクセスの全てに対応する環境ではありません。   SQLデータベースはもはや、データのモデリング、保存、リンク、処理、アクセスの全てに対応する環境ではありません。

このシリーズの第2回では、Talend Big Data、Metadata Manager、Talend Data Preparation、及びTalend Data Fabricを使用して、Talendがどのようにこれらの課題に取り組むかをご案内します。

Share

Leave a comment

コメントを追加

More information?