ビッグデータプロジェクトを成功させる(そして、落とし穴を避ける)方法

article in English
Tags: big data, pitfall,

本記事は、Advanced Performance Institute社の創業者兼CEO、Bernard Marr氏によるゲストブログです。

ビッグデータが世界を席巻している中、この「時流に乗る」道を選ばなければ恐竜同様に絶滅するであろう、という文句でこの記事を始めることも可能です。

ここ数年間にビッグデータについて書かれた数百の記事の始まり方も、このようなものでした。

そのような記事の多くは、有益な情報を盛り込んだ素晴らしいものです。

しかし、それは記事の書き出しとしては実に怠惰な方法です。このことは、今この記事を読んでいる皆さんの大部分がすでにご存じかと思います。

そもそも、このことをわかっているからこそ、皆さんは今この記事を読んでいるのではないでしょうか。

そのような文句は、たとえ真実(であり常套句)であったとしても、状況を簡単にとらえすぎています。

真実は、仮に「時流に乗る」ことを選択しても、成功の保証はないということです。

重要なのは「うまく時流に乗る」ことです。それは明白なことに思えるかもしれませんが、多くの企業にとって克服できない障壁となっています。

したがって今回は、一番最初から始め、慎重に検討する必要があるいくつかのステップについて説明します。このような検討の後で、データの収集、アナリストの採用、独自の分散型クラウドストレージインフラストラクチャのセットアップといったことに予算を投じるべきです。

規模の大小を問わず多くの企業が、ビッグデータの誇大な宣伝に流されて陥りやすい落とし穴を回避するうえで、この記事が役に立てば幸いです。

最初に、ビッグデータとは何かという点に触れます。また、ビッグデータは誤解されやすいものでもあるため、それが意味しないものについて理解することも重要です。

この点を単純化しすぎていると思われる方にはお詫びします。しかし、このような誤りは頻繁に見受けられます。

ビッグデータは、単に「量の多いデータ」ではありません。

最も一般的な誤りのいくつかを回避するうえで、これを理解することが鍵となります。

改めて質問します - ビッグデータとは何でしょうか?

ビッグデータとは、世界中で増え続けているデータを理解する能力を説明する用語です。

データだけでなく、データの保存と分析に使用される手法やテクノロジーも指します。

ますます、非構造化データ(ビデオ、オーディオ、ソーシャルメディアデータ等、スプレッドシートの行と列にうまく適合しないデータ)と機械生成データ(スマートデバイスやインターネットに接続されたものに由来するデータ)を理解して知見を引き出すことに、特に関係するものになってきています。

この傾向は、今日のデジタル、モバイル、常時接続の世界で急増しているデータがこのような種類のものであるためです。

ビッグデータがどのようなものかについてのさらなる詳細は、こちらをご覧ください。

他にも理由はありますが、特にこの理由から、私自身はビッグデータではなく「スマートデータ」という用語をしばしば使用しています。

つまり、重要なのはサイズではなく、それを使って何をするかということなのです。

ダウンロード >> Apache Sparkと組込み済みのシナリオを使用してTalend Real-Time Big Dataを試用しましょう

最重要ステップ

次に考慮する必要があるのは、そもそもビッグデータを使用する理由が何かという最重要ポイントです。

そして、その答えは「他の皆が使っているから」であってはなりません。

必要となるのは明確なビジネスケースです。

「どのように」そして「なぜ」ビッグデータが企業にとって役立つものであるのかを知る必要があります。

特定の問題を解決するうえで、ビッグデータは

確かに役立つでしょうが、問題の正確な特定が必要です。

以前、小売業の顧客から、推進中のビッグデータプロジェクトでの支援を依頼されたことがあります。

最初のミーティングでプロジェクトの説明を求めたところ、進行中のデータ駆動型プロジェクトが250件以上あるために、すぐには説明できないという返事をされました。

これらのプロジェクトの多くは、特定の問題を解決することを目的としていないか、または、意義を明示できない指標(たとえば、スタッフの欠勤が業績に影響を与えているという証拠がないにもかかわらず、スタッフの病欠が発生しやすい日を予測する等)を変更することに重点を置いていませんでした。

比較的少ない作業を行っただけで、これらのプロジェクトの大部分を切り捨て、明確な変化をもたらす可能性のあるプロジェクトにリソースを割り当てることができました。

つまり、プロジェクトがどのようにビジネスの重要な課題に対応するのか、顧客サービスを向上するのか、または業務効率を高めるのかについて即座に回答できない場合、そのプロジェクトはおそらく時間の無駄です。

正しいデータを見つける

このことは、私が強調したい次の落とし穴、

つまり、収集するデータが正しいデータであることを確認する必要があるという点にも関連しています。

あまりにも多くの企業が、「収集可能なデータを全て集めて、その後でどうするか考える」という心積もりでビッグデータの取り組みを始めています。

これではまったく見当違いな方向に進んでしまい、多くの場合は大失敗に終わります。

このやり方には、プロジェクトを頓挫させかせかねない2つの危険性が伴います。

第一に、あまりにもデータが多いために、「木を見て森を見ず」の状態に陥るリスクです。

必要としている知見や変化をもたらす可能性のあるデータに焦点を当てるのではなく、何の役にも立たないと思われるパターンや知見によって気を散らされてしまいます。

「全てを集める」という姿勢のもう1つの問題は、データの収集と保管には費用がかかり、さらに法的義務やコンプライアンスも伴うという点です。また、多くの場合、ビッグデータプロジェクトは個人データに関与するものであるため、これらの費用と義務が非常に大きくなる可能性があります。

データスキルの必要性

財務上のコストだけでなく、人材と時間のコストも明らかに生じます。

データサイエンティストが明確な目標のない多数のプロジェクトを抱えて右往左往したり、即時かつ明確な用途のないテラバイト規模のデータをデコードしたりしている場合、真に価値のある案件が生じたときに、これらの人材がプロジェクトに取り組む余地がなかったり集中できなかったりする可能性があります。

適材適所を徹底させることが不可欠です。

優秀なデータサイエンティストは安くはありません。一般的に10万ドル以上の給与が必要となります。また、最高レベルの人材に対する需要は常に大きく、求職数はごく限られています。

達成したい目標を正確に把握することで、そのタスクに最適な人材を見つける可能性がより高くなります。

これは、必ずしも社外人材の採用を意味しているのではありません。金融業界のある顧客は、すでに同社に雇用されている金融アナリストと採用予定のデータサイエンティストの職務の間でスキルセットが大きく重なることに気が付きました。

ビッグデータサイエンス分野での仕事に関心のある財務アナリストに実地トレーニングを提供することで、これらのアナリストはそれぞれの役割をはるかに効率的に果たせるようになりました。

優れたプロジェクト管理

私が非常に重視しているもう1つのポイントは、プロジェクト全体を通して良好なコミュニケーションを実現することの重要性です。

これには、プロジェクトを推進するチーム全体のみならず、Cレベルの役員から分析を実際に実行する技術者、顧客対応スタッフ、プロジェクトの結果の影響を受けるスタッフまで、より幅広い組織にわたってプロジェクトへの「支援」を得ることが含まれます。

プロジェクトの達成目標について全員が明確に理解する必要があり、とりわけ理由を把握することが欠かせません。

多くのビッグデータプロジェクトが失敗する理由として、プロジェクトで獲得された知見を実際に活用すべき最前線のスタッフが、長年慣れ親しんだ方法とは異なる方法をとるように突然指示され、その理由を理解できないことが挙げられます。

しかし、これらのスタッフに非はありません。ほとんどの場合、誰も時間をかけてスタッフに適切な説明を行わなかったことが原因です。

リアルタイムで分析している分散した非構造化データ全体で実行されている機械学習アルゴリズムの内容を、スタッフが理解しなくてもかまいません。

しかし、スタッフに何が求められているのかについて、論理的で常識的な理由は必ずあるはずです。実際に唯一の違いとなるのは、全体的な戦略と日常業務の手順の両方に関して、意思決定を後押しする統計と分析による証拠を(願わくば)獲得したという点です。

私自身がビッグデータではなく「スマートデータ」と呼ぶ方を好むことは、先に述べました。

これは、「スマートデータ」の方が的確に真の意味を説明していると考えるからだけではなく、

データ分析の活動を確かに実りあるものにするために必要なステップの内訳を説明するうえでも便利だからです。

これらのステップは、次のとおりです。

S - 戦略から開始(Start)する。活動の明確なビジネスケースがあることを確認する。

M - 指標とデータを測定(Measure)し、的確なデータであることを確認する。

A - 分析を適用(Apply)する。必要なタスクについて適切なスキルとテクノロジーを準備していることを確認する。

R - 結果を報告(Report)する。組織内の上から下まで明確なコミュニケーションをとる。

T - 発見した知見に基づいてビジネスを積極的に変革(Transform)する。

この基本テンプレートに従うことで、ビッグデータプロジェクトでメリットを実現できないというありがちな状況に陥ることなく、実際のビジネス価値とパフォーマンス向上を組織にもたらすための幸先の良いスタートを切ることができます。

 

Related Resources

With Talend, Speed Up Your Big Data Integration Projects

Easier Data Integration: 5 Steps to Success

Related Products

Talend Big Data

 

Share

Leave a comment

コメントを追加

More information?