月別: April 2017

クラウドにおける「管理されたデータレイク」

投稿者:Dale T. Anderson(Talend、リージョナルマネージャー、カスタマーサクセスアーキテクト)、Kent Graziano(Snowflake社、シニアテクニカルエバンジェリスト) ここでは、データレイクの構築について取り上げます。データレイクを使用すると、データウェアハウスが不要になり、ビジネスユーザー全員がビジネス分析を簡単に引き出せるようになるのでしょうか。また、Hadoopのようなビッグデータテクノロジーにすべて放り込むだけで、データの課題をすべて解決し、Sparkで高速データ処理を実現し、機械学習の高度な洞察から魔法のように競争力を得られるのでしょうか。あるいは、NoSQLを使えばデータモデルは不要になるのでしょうか。 そのような認識は、大半が根拠のない誇大宣伝です。新しいデータレイクが実際にはデータスワンプとなっている場合、あらゆるソースから集められたデータで汚染され、有意義な情報をどこにも提供できない状態であるなどと、上司に説明しても理解してもらえないのではないでしょうか。そのような状況に陥らないためにも、TalendとSnowflake Elastic Data Warehouseを使用して、より良いソリューションを構築することを検討してください。 データレイクの構築を成功させるには、取り組みを始める前に、いくつかのよくある誤解を解く必要があります。 データレイクとは(あるべき姿) すべてのビジネスデータを一元的に格納 リネージと履歴を管理する公開のデータ辞書(または用語集) ソースデータと有意義なメタデータモデルの融合 ビジネス運営/報告上の多数のニーズに使用可能 ほぼすべてのビジネスニーズに適したスケーラビリティ、適応性、堅牢性 データレイクではないもの(または、避けるべき状態) 「新しい」エンタープライズデータウェアハウス HadoopまたはNoSQLベースであることが必要 すばやく簡単にアクセスできる、追加のデータサイロ データ統合と処理の必要性を排除できる 非常に現実的な価値のある最新トレンド IoT/アナリティクス/AI機能専用 それでは、なぜ「データレイク」を構築する必要があるのでしょうか。データレイクの主な目的は、多様で(場合によっては)限られたデータセットを散在した異種のデータサイロに格納する代わりに、生の(フィルタリングされていない)組織データへの完全かつ直接的なアクセスを提供することです。たとえば、1つのデータマートにERPデータがあり、別のファイルサーバーにウェブログがある場合、それらを結合するクエリーでは複雑なフェデレーションスキーム(および追加のソフトウェア)が必要になることがよくあり、大きな労力が伴います。理想的には、データレイクを使用することで単一の大規模なリポジトリにすべてのデータが格納されるので、データに簡単にアクセスして、どのようなクエリーでも実行できます。 適切に設計され管理されたデータレイクを使用すると、すべての必要なデータをまとめてロードでき、それぞれのビジネスユースケースを簡単かつシームレスにサポートできます。従来のビジネスインテリジェンスのレポート作成やアナリティクスから、データサイエンスチームによるデータの探索、ディスカバリー、実験まで、すべてを提供できるので、上司から一目置かれるようになるでしょう。 目標とするメリットを実現する「データレイク」を構築するには、何が必要でしょうか。大量のデータが関与する複雑なソフトウェアプロジェクトと同様に、最初にやるべきことは真剣に検討することです。適切に設計されたデータレイクには、構築の労力をはるかに上回る潜在的メリットがあります。したがって、何を期待すべきかを適切に設定することが非常に重要です。測定可能な結果はすぐには現れないかもしれません。時間をかけて、取り組みとタイムラインを編成/設計/計画する必要があります。「アジャイル」のアプローチも効果的でしょうが、長期的な目標を設定し、チームがサポート/調整/順応できる歩調で進めることで、必ず達成できます。 さらに、大量のデータを伴う複雑なソフトウェアプロジェクトと同様に、以下の3つの重要事項を慎重に検討する必要があります。 人 「すべての」ビジネスステークホルダーを巻き込みます。これらの人々のデータなのですから! 必要に応じて技術専門家の関与を仰ぎます。あるいは、専門知識を習得します! プロセス 適切で柔軟なガイドラインを作成し、それに従います。文書化しましょう! 後付けではなく、ルールとしてデータガバナンスを確立します。 適切な方法論(SDLCとデータモデリング)を取り入れます。 ベストプラクティスを使用します。一貫性を保ちましょう。 テクノロジー 適切なツールを使用し、それらの使用方法を把握します! アーキテクチャーとインフラストラクチャ データレイクに関しては、その優れた機能を理解すると同時に、何を期待すべきかを適切に設定することが重要です。新しく登場した用語と同様に、データレイクが何であるか、いかに活用すべきかについて、誤って解釈/表現されがちです。ステークホルダーは独自の考えを持っていることがあり(非現実的な期待感を呼び起こす業界の誇大宣伝によって、しばしば偏った考えに陥る可能性もあります)、問題のあるコミュニケーション、間違ったテクノロジー、不適切な方法論といった破滅的な事態がもたらされる可能性があります。これを避ける必要があります。 「管理されたデータレイク」を実現するには、本質的に、データを格納するための堅牢なデータ統合プロセスと共に、データを取得するための適切なデータ系列(ロード日とソースなど)を含む有意義なメタデータが必要です。これらの重要な属性がなければ、「データスワンプ」が発生する可能性が非常に現実的になります。これを念頭に置いて、2つの重要なエコシステムを見てみましょう。 オンプレミス これに関与するものとしては、RDBMSやビッグデータインフラストラクチャがあります。 通常は、制御された/安全なアクセスによって自己管理されます。 ソースのデータとなる可能性が高いですが、排他的ではありません。 従来のITサポート、制約、遅延を伴います。 クラウド これに関与するのはSaaSアプリケーションです。 通常、アクセスのためのユーザーロール/権限を使用してホストされます。 プロセスは、クラウドからクラウド、クラウドからオンプレミス、またはオンプレミスからクラウドです。 TCOが低く、弾力的な柔軟性、そしてグローバルなユーザビリティがあります。 オンプレミスとクラウド アーキテクチャーとインフラストラクチャの構築方法は、要件に応じて異なります。データレイクプロジェクトの初期段階での選択肢が、直接得られるメリットに反映されます。TalendとSnowflakeが連携することで、これら両方のエコシステムが可能になります。この点について見ていきましょう。 オプション1 — オンプレミスのTalendとクラウドのSnowflake […]