データレイク構築で陥りやすい3つの落とし穴とその回避方法

データレイク構築で陥りやすい3つの落とし穴とその回避方法

  • Shiyi Gu
    Shiyi Gu is the Product Marketing Manager for Big Data at Talend. Shiyi brings her expertise in Data Integration, Big Data and NoSQL, and is passionate about open source technologies. She loves helping customers connect the dots between technology and business value.

最近、北米大手銀行のIT部門のSVP(シニアバイスプレジデント)とデジタルトランスフォーメーション戦略について話す機会がありました。その中で、ビッグデータやデジタルトランスフォーメーションに対するアプローチが絶え間なく進化しているという話が印象的でした。市場に新しく登場してきたテクノロジーの機能をビジネスに生かすには、新たな軸足やアプローチが必要です。データとアナリティクスの成長を維持/拡張できる俊敏性の高いアーキテクチャーを使用することが、これまで以上に重要になっています。ここでは、データレイクの構築で陥りやすい3つの落とし穴と、その回避方法について説明したいと思います。

  1. 「取り込みツールさえあればよい」

データレイクを構築すれば、あらゆる課題を解決できると思われがちです。確かに、データの格納場所ができることは成果と言えます。多くの場合、最初に課題となるのがデータの取り込みです。データレイクに流れ込む種類も量も莫大なデータの収集/取り込みに対処する必要があり、データさえ収集できれば簡単に目標を達成できると考え、データ取り込みソリューションを購入します。データのキャプチャーと収集は可能になりますが、これで問題が解決したのではありません。一時的には問題ないかもしれませんが、真の取り組みはこれからです。

データをデータレイクに格納することが始まりでしかないことは、すぐに明らかになります。多くのプロジェクトは、「データスワンプ(沼)」の問題により失敗します。これは、データレイクが構造を持たず、品質が低いうえに、人材も不足し、実際にデータがどこから来たのかトレースすることもできない状況を指します。生データは、そのままでは有用性が低く、データから質の高いアナリティクスを行うには、まずデータを処理し、クレンジングし、変換する必要があります。これが、2つ目の落とし穴につながります。

  1. データレイクのハンドコーディング

We have had many blogs in the past on this, but you can’t emphasize this topic enough. It’s strikingly true that hand coding may look promising from the initial deployment costs, but the maintenance costs can increase by upwards of 200%. The lack of big data skills, on both the engineering and analytics sides, as well as the movement of cloud adds even more complexity to hand coding. Run the checklist here to help you determine when and where to have custom coding for your data lake project.

このトピックに関しては過去の多くのブログで取り上げていますが、強調してもしすぎることのない重要事項です。ハンドコーディングは、初期の展開にかかるコストの観点からは妥当なオプションのように思えますが、保守コストが200%以上も増加する可能性があります。ビッグデータのエンジニアリング/アナリティクスの人材不足やクラウドへの移行も、ハンドコーディングを一層複雑にします。こちらのチェックリストでは、どのような場合にデータレイクプロジェクトでカスタムコーディングを使用すべきか確認できます。

  1. セルフサービス

高速アナリティクスのニーズが高まるにつれ、今日の企業はセルフサービス式の統合機能を求めるようになってきています。しかし、ガバナンスとメタデータ管理を適切に確立していなければ、このようなセルフサービス機能は簡単に深刻な事態を招きかねません。基本的な統合タスクの多くをシチズンインテグレーターに任せる場合には、作業を追跡するガバナンスを導入しているか、データへのアクセス権を適切なタイミングで適切なユーザーに与えているか、データレイクの適切なメタデータ管理によってセルフサービスデータカタログを活用できるようにしているか、といった点を確認する必要があります。

「アボカドカッター」の罠

データレイク市場が成熟するにつれて、要求される水準も高くなっています。それにもかかわらず依然として問題となっているのが、データレイクプロジェクトの各段階でのデータの取り込み、処理、管理です。大局的な状況変化を見てみましょう。ベンチャーキャピタル企業のFirstMarkによると、2012年の市場は次のように示されていました。

 

 

 

 

 

 

 

 

これが、2017年には次のように変化しています。

企業がニーズを明確に理解するようになり、ビッグデータ市場は今までとは比較にならないほど成長しています。前述の3つの落とし穴を回避したいなら、「アボカドカッター」のような特定用途向けのツールに手を伸ばすべきではありません。このようなツールは魅力的で興味をそそります。問題解決にうってつけのように見えるかもしれません。しかし、データの取り込みにしか使えなかったり、対応する処理フレームワークが限られていたり、1つの部門の特定のニーズにしか使用できなかったりと、特定の課題しか解決できないことにやがて気づくことになります。データレイク戦略で本当に必要なのは、全体的アプローチです。言うなれば、幅広い用途に使えるナイフです。この点を見誤ると、山積みのテクノロジーを管理するために、多くの不必要なテクノロジーやベンダーを使用するはめに陥ることになります。

次の投稿では、データ管理戦略を成功させるために考慮すべきポイントについて取り上げます。

ディスカッションに参加

0 Comments

コメントを残す

Your email address will not be published. Required fields are marked *