ビッグデータ活用の第1歩を踏み出すには

article in English

ビッグデータ活用の第1歩を踏み出すには

全世界のデータ量が2年ごとに倍増している背景で大きな原動力となっているのは、ソーシャルメディアに続くトレンドとなっているIoT(モノのインターネット)です。[1] 同時に、データ処理の速度と能力はますます重要になってきています。これは、食料品と似て、一定の期間が経過するとデータの妥当性が失われてしまうためです。 さらに現在では、多様化する構造化データ、非構造化データ、半構造化データ(画像、テキスト、ビデオ、音声等)の取得及び分析が容易になりつつあります。 ビッグデータは、量、速度、多様性という3つの主要要素で定義されます。[2] この3つの要素を制御できる企業は、データを活用して大きな価値を引き出すことができ、デジタルの成熟度が劣る企業と比較すると、より大きな成功を実現していくでしょう。[3]

包括的なデータ取得戦略を成功させて競合他社との差別化を図ることに成功している企業があります。例えば、Amazon社、Netflix社、Uber社等がその一例としてあげられるでしょう。 ビッグデータ技術に向けた適切なプラットフォームを構築することも、その戦略の一環として必要です。 O’Reillyのレポート、「The Big Data Market 2016」[4] によると、大企業(従業員数5,000人以上)は中堅中小企業に比べてはるかに迅速にHadoopやSpark等のビッグデータ技術を導入しています。

しかし、中小規模の組織が今日の最新データプラットフォームを活用して「デジタルリーダー」になるチャンスも多くあります。 Cloudera社によると、Hadoopのエコシステムが成熟することで、コスト削減を達成できるだけでなく、より戦略的なデータ利用による新たなビジネスチャンスが生まれる可能性もあります。ビッグデータは、顧客に対する理解を深め、製品やサービスを改善し、より効果的なプロセスを実現し、品質保証の改善と問題検出の強化によってリスクを低減するために主に活用されます。[5]

順調なスタートを切るために

ビッグデータプロジェクトを開始するのは難しいと思われがちです。 日々の業務でビッグデータ技術を何となく検討してはいるものの、具体的なプロジェクトを開始するまでには至っていない中規模の企業を多数目にしています(ドイツ語圏の市場での話です)。では、ビッグデータプロジェクトを開始する最善の方法とは何でしょうか。

経験から言って、一般的に最も成功するアプローチは、実際のビジネスに関連した明確に定義された小さなプロジェクトプランを作成し、そこから始めることです。当社の顧客の多くは、新しいデータソースから得られる、増加を続けるデータを保存するという課題に直面しています。 多くは機械からのデータであり、ソーシャルメディアデータも時に含まれます。原則的には、データをリレーショナルデータベースに格納することも、既存のデータウェアハウスに格納することも可能です。 しかし、それではコストが高くなるため、代替案を検討する必要があります。つまり、それら従来の方法は、現在では適切であるとは言えないのです。

小さなプロジェクトは、ビッグデータ技術の使用経験を積むために効果的と考えるのが一般的です。 リスクを回避しながら新しい技術を初めて使用するうえでは、比較的小さく、管理しやすく、隔離されたプロジェクトが基本的には適しています。 Volume(量)、Velocity(速度)、Variety(多様性)という3つのVが全て完全に満たされるかどうかは、重要ではありません。一方で、制御可能な適切かつ妥当なビッグデータのユースケースを使用し、成否を判断するための基準を設け、パイロットから本番稼働環境に迅速に移行できるようにすることが重要です。[6]

仮に、充分に実績のある技術を使用してビッグデータプロジェクトに対応できるとしても、新しいビッグデータ技術を試してみる機会があれば、それを逃すべきではありません。新しい技術を制御しやすい規模で試しておかなければ、より大規模で複雑なプロジェクトに対処できないという事態に陥りかねません。

ビッグデータ技術はすでに成熟し、利用しやすいものであるため、ビッグデータプロジェクトのアーキテクチャーも通常は対処しやすいものです。データストレージには、Hadoopディストリビューションが使用されます。 データは、最初にソースで収集され、場合によっては変換され(ビッグデータについては変換せずに生データを保存することが推奨されます)、その後でHadoopにロードされます。 Talend Big Data Platformは、このようなモデルに基づいて実装するために必要な、全ての機能を提供します。これによって生成される高性能なネイティブコードを使用して、チームは短期間でApache Hadoop、Apache Spark、Spark Streaming、及びNoSQL技術を活用できるようになります

最終的に、データは生データレベルに対して直接、または前処理済みデータが格納されたデータマートを経由して検証されるのが一般的です。続いて、データマートへのデータ格納はTalendによって行われます評価には現在適切なツールを使用していればそれを利用することもできますが、データの可視化、発見、及び高度分析等の新しいツールを導入する良い機会でもあります。

big-data-architecture

開始、拡大、そして機会創出

ビッグデータと従来型データウェアハウスの関連性は高まりつつあります。 理論的には、Hadoop等のビッグデータ技術を活用して、データウェアハウス全体を近代化することが可能です。これによって、多くの場合は大幅なコスト削減を実現しながら、新しいチャンスを創出できます。 一方で、時間をかけて従来のデータウェアハウスにビッグデータの領域を統合することも可能です。 Oビッグデータインフラストラクチャを構築した後は、Hadoopとデータウェアハウスを簡単にリンクできます(どちらの方向も可能です)。 データウェアハウスは、Hadoopに格納されているデータのソースとして機能します。  同様に、Hadoopからデータを読み取って変換し、最終的にデータウェアハウスに格納することもできます。 これら2つの領域を相互に隔離する必要はなく、統合することで最終的にはビッグデータ技術に基づくデータウェアハウスを実現できます。

千里の道も、常に最初の一歩から始まります。 ビッグデータ技術は成熟し、利用しやすくなりました。しかし、何事にも当てはまることですが、具体的に動かなければ前進もありません。 したがって、そのようなプロジェクトを積極的に見つけることをお勧めします。 実際に第1歩を踏み出して技術を調査し、インフラストラクチャを構築できれば、そこで生まれる新しいチャンスからすぐに利益がもたらされます。これによって、データ駆動型企業に有利な現代の環境で、競争力を維持していくことができます。

References

[1] https://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm

[2] https://en.wikipedia.org/wiki/Big_data

[3] https://www.idc.com/getdoc.jsp?containerId=prAP40943216

[4] https://www.oreilly.com/ideas/the-big-data-market

[5] http://www.cloudera.com/content/dam/www/marketing/resources/whitepapers/the-business-value-of-an-enterprise-data-hub.pdf.landing.html

[6] http://www.gartner.com/newsroom/id/3466117

[7] https://talend.com/products/big-data

About the author Dr. Gero Presser

Dr. Gero Presser is a co-founder and managing partner of Quinscape GmbH in Dortmund. Quinscape has positioned itself on the German market as a leading system integrator for the Talend, Jaspersoft/Spotfire, Kony and Intrexx platforms and, with their 100 members of staff, they take care of renowned customers including SMEs, largecorporations and the public sector. 

Gero Presser did his doctorate in decision-making theory in the field of artificial intelligence and at Quinscape he is responsible for setting up the business field of Business Intelligence with a focus on analytics and integration.

017b512_1

Share

Leave a comment

コメントを追加

More information?