月別: June 2018

アドホックインテグレーターとシチズンインテグレーターの登場

この数年間にデータ業界で起こっている変化によって、「アドホックインテグレーター」と「シチズンインテグレーター」という新しいタイプのユーザーが登場してきました。 Wすでに多様なデータワーカーが企業情報にアクセスしていますが、さらにこれらの新しいカテゴリのメンバーが加わったことになります。このため、企業はデータセキュリティとデータガバナンスの戦略に対するアプローチの再考を迫られています。 データエンジニアとは異なり、この新しいカテゴリの「シチズン(市民)」は、必ずしも日常業務の一環としてデータ統合を利用しているわけではありません。それにもかかわらず、活発な動きが見られます。 では、これらの「シチズン」とは具体的にどのようなインテグレーターなのでしょうか。ガートナーによると、アドホックインテグレーターには、アプリケーション開発者などのビジネス部門の開発者が含まれます。開発の一環としてデータ統合を必要とすることがありますが、データ統合は必ずしも日常的に継続して発生するタスクではありません。 シチズンインテグレーターには、データサイエンティストやデータアナリストなど、それぞれの主たる業務のためにデータを統合する必要のあるビジネス部門内のデータ専門家が含まれます。 イノベーションがもたらす知見獲得のチャンス データソースの増加に伴ってユースケースも増加し、データ駆動型のビジネスを実現する機会があらゆる部分で生まれています。 Kafkaのようなストリーミングデータ処理テクノロジーを大規模に導入することによって、ビジネスでのデータ利用が加速し、IoTやクリックストリームのデータ分析が実現可能になっています。 同時に、Apache Sparkのようなオープンソースのビッグデータテクノロジーは、増大するデータの処理と分析のためのフレームワークを提供します。Amazon Web ServicesやMicrosoft Azureなどのクラウドサービスプロバイダーも、企業全体のデータ駆動プラクティスを支援してきました。これにより、あらゆる規模の企業がオンプレミスのテクノロジーでこれまで必要とされた資金やリソースを投入せずに、より多くのデータを格納、処理、探索できるようになっています。 これらのイノベーションが、サプライチェーンからマーケティングまでのほぼすべてのビジネス部門において、通常の日常業務から戦略的イニシアチブにわたるまでの多様な選択肢を把握するために、データを活用できる環境を生み出しています。 さらに、あらゆる市場において、正確な知見を取得し、それに基づいて行動することが競争優位性となっています。 つまり、不正確な分析や知見獲得の遅れによって、不利な状況に陥る可能性があるのです。業界や顧客のニーズを認識するのが遅れ、競合他社に先を越されると、市場シェアを奪われかねません。 競争力を維持するために企業が雇用している多数のデータサイエンティストとデータアナリストは、トレンドを特定し、ビジネスの各セグメントが実行可能な知見を明らかにします。 これまでとは異なるインテグレーターの登場 IT部門にとって、データソースの増加を管理するとともに、急激な勢いで増えているアドホック/シチズンインテグレーターからの分析用データセットの要求に応えることが難しい場合があります。 残念ながら、多くの場合にIT部門がボトルネックになっているため、アドホック/シチズンインテグレーターは、分析に必要なデータにアクセスするために何日も(または何週間も)待たされることがあります。どれだけ早く知見をするかというこtが、業界におけるリーダーとなるかどうかの差別化要素となっている現在、これは見過ごせない問題です。 結果として、ビジネス部門の開発者、データサイエンティスト、データアナリストは、すぐにデータを使用して分析を開始したい場合、データの統合と準備に自分自身で対処することになります。 統合の未来:新しいインテグレーターを漏れなく支援する データ統合の分野でアドホック/シチズンインテグレーターがますます重要な役割を果たしていることを説明してきました。では、今後はどのような方向性をとればよいのでしょうか。 リソースが足りないIT部門から軽視されたり完全に無視されたりすることの多いアドホック/シチズンインテグレーターは、分析用のデータ収集/クレンジング/準備のためにツールを独自に見つけるようになっています。 AIT部門の権限の範囲外となって監督やガバナンスの及ばないツールを使用することがあります。 こレラのツールを使うことで、アドホック/シチズンインテグレーターはデータを迅速に準備できますが、その一方で監視/管理されないデータによるリスクも生まれます。 データセキュリティとデータガバナンスの問題がしばしば大々的に報道されている現在、誰がどのデータにアクセスし、データを何に使い、どのようにデータを格納しているのかを企業内で管理することが非常に重要です。このレベルのガバナンスを達成するためには、企業は人、プロセス、製品に焦点を絞る必要があります。 まず、組織内でデータを扱う者は、データ管理がチームスポーツ型の活動であることを理解する必要があります。また、どのようなチームでも言えることですが、各人が自分の役割を理解する必要があります。 さらに、自分の役割を理解することと同じくらい重要なのは、相互のやりとりによりチームに貢献して、可能な限り正確なデータ(続いて知見)を得る方法を理解することです。 データ管理は複数のチームにわたって行われることが多いため、相互のやりとりの一部について、全てのチームがプロセスに合意していることが重要です。 最後に、データチーム内のすべてのメンバーを支援する製品を見つけることも重要です。この製品は、メンバー間で設定されたプロセスを運用化できるとともに、IT部門が常に管理できるものでなければなりません。 データ統合と分析の環境が変化する中、データを扱う人々、相互のやりとりで使用されるプロセス、これらの人々とプロセスをサポートする製品もすべて変化しています。皆様の組織は、新しいインテグレーターを支援して力を強化する準備ができているでしょうか。


クラウド移行を成功させるためにCIOが検討すべき5つの戦略

クラウドITインフラストラクチャの採用が広がるにつれて、モバイルデバイスやIoTデバイスが普及し、ソーシャルメディアが台頭しました。企業規模や業界にかかわらず、企業は膨大な量のデータを、種類、速度、真正性、有効性を問わずに抱え込むことになりました。 クラウドへの移行 この様な状況から、データプラットフォーム全体をクラウドに移行しようと検討する組織が増え、ITリーダーは全てのデータを確実に管理し、ガバナンス、クレンジング、保護を細やかに計画できる手段を探さなくてはいけません。 クラウド上のデータはクラウドサービスプロバイダーが義務や説明責任を負うものと誤解しがちです。 しかし、この解釈は真実から大きくかけ離れています。 クラウド移行に際して、企業は、データの品質のみならず、コンプライアンス、保護、アクセシビリティ、信頼性の確保に対して、より積極的に取り組む必要があるのです。 データのクラウドへの移行におけるもう1つの誤解は、すべてのデータは簡単にアクセスできる1か所にまとめられるというものです。これは必ずしも当てはまりません。 データは、企業にとって間違いなく最も貴重な資産です。しかし、組織的または技術的な制約のためにサイロ化されたデータからは、知見をほとんど得られません。 顧客、製品、パートナーに関する既存のデータが組み合わせられ、情報に基づく意思決定に活用されて初めてデータは真価を発揮します。 クラウド移行のためにCIOが検討すべき5つの戦略 上記の点を踏まえて、CIOがクラウド移行戦略を策定する際に留意すべき重要事項をこれから紹介します。 クラウドへの大規模な移行をどのように行うか(POC完了後) 長期的ではなく短期的にとらえて油断しているケースがよく多く見受けられます。 短期的なアプローチはイノベーションの妨げとなることが多く、長い目で見るとコストを膨らませることになります。また、クラウドのPOCの実行に際しては、専用に開発された単一のアプリケーションの使用に走りがちです。 しかし、複数のチームやシステム間で迅速かつ容易に導入できるツールを組み込んだアプリケーションスイートを使用する方が、データプラットフォームがクラウドで正常に動作するための要件を把握するうえで、はるかに優れた指標となります。 最先端の環境をどのように保持するのか? クラウドのイノベーションは急ピッチで進んでいます。常にビッグデータクラウドの最新テクノロジーを活用できるよう、CIOには俊敏なアプローチが求められます。クラウドシステムを構築するうえで移植性は重要な検討項目です。移植性が高ければ、新しいテクノロジーをすぐに導入でき、ビジネスニーズの増加はクラウド環境で対応できます。たとえば、機械学習、AI、データベースに関する技術進歩によって、早期に成果を実現できるようになってきています。CIOは、最新技術や業界の進化にあわせ、データプラットフォームを新しい機能や新しい標準に適応させる必要があります。 必要なリソースをどのように維持し、メンテナンスコストをどのように管理するか。 クラウド移行の取り組みを開始するときは、その後のサポートスキルとメンテナンスコストを考慮する必要があります。御社の開発担当者は、自身が構築したクラウド環境を長期的に維持できるでしょうか。 クラウド環境を長期間維持していくには、どのようなスキルと知識が必要でしょうか。 組織で最も優秀な上位5%のコーダーに初期のクラウド移行を担当させるというのは、適切とは言えません。必要なのは、拡張可能なアプローチです。 Talendのような使いやすいツールは、データエンジニアがトレーニングをほとんど受けずに使用開始できるという素晴らしい特長を備えています。 さらにCIOは、再利用可能な標準化されたベストプラクティスを作成していくことも考えなければなりません。これによって、クラウド環境を長期的に維持しやすくなります。 また、組織のリソースがボトルネックになるというリスクを抑えて、より広範囲で実装できるようになります。 データサイエンスチーム用の戦略を別途に策定する。 データサイエンティストはデータに対する欲求が非常に高く、時間とクラウドリソースを消費する複雑な機械学習アルゴリズムを実行することを強く望む傾向があります。 それは、指標を理解し、また、ビジネスにとって何が最も重要であるのかを理解するために重要ですが、以下の2つの理由からデータサイエンティストチーム用の戦略を別途に策定するべきです。 第1に、CIOは、データサイエンティストがテストを実行するためのサンドボックス環境の構築をぜひとも検討する必要があります。なぜならサンドボックス環境を使用しないと、他のユーザーのパフォーマンスやリソースに影響を及ぼす可能性があるからです。 第2に、データの廃棄/削除計画が必ず必要です。単一のクラウドデータレイクにすべてのデータを格納して機械学習ツールを配置するのは、テーブルを増やし、データスワンプを作り出すだけであり、良い方法とは言えません。 データレイクで実行していたMLアルゴリズムのために、データ量がわずか10日間で50%増加したという医療関連の調査/コンサルティング会社の事例もあります。 そのような規模のデータとリソースは、持続可能ではないうえにコストがかかりすぎます。したがって、ビジネスの目標と規制へのコンプライアンスにみあったかたちで適切にデータを廃棄していくことが重要です。 データのガバナンスと品質に基づくクラウドデータ戦略を策定する。 クラウドへの移行では、ビジネスの成果に基づくアプローチをとることが重要です。そのためには、データガバナンスとデータ品質の戦略を中核に据える必要があります。膨大なデータが、適切に処理や管理がされておらず、信頼できないものであれば、ゴミを使って作業しているのと同じであることに誰も異論はないでしょう。どのような企業データ戦略も、最初から高品質のデータを使用しなければ推進することはできません。しかし、データの確認は、場合によっては時間のかかるプロセスです。実際、現在の業界統計によると、組織は業務時間の60%以上をデータの確認や準備に費やしています。そのため、肝心の分析にかけられる時間はほとんど残っていません。この状況を受けて新たに登場しているセルフサービスツールにより、ビジネスユーザーはこれまで以上に高速にデータにアクセスして、データを統合、クリーンアップし、確認できるようになっています。 セルフサービスツールを使用する企業は、「コラボレーション型アプローチ」をより一層推し進めながらデータ品質に取り組むことができます。情報に最も精通したビジネス部門のステークホルダーが、情報の整理、クレンジング、ガバナンス、更新を行うことができます。 データをクラウドに移行する際にITリーダーが留意すべき重要事項は、ほかにもあります。 しかし、何よりも重要な点は、クラウド戦略の開始にあたって目標とするビジネス成果を念頭に置き、これに基づいて取り組みを進めていくことです。 そうすることで、サイロ型環境を取り払い、リアルタイムで信頼できる知見をもたらすシステムをより確実に実現できます。これにより、ITリーダーは顧客のニーズを予測し、変化し続けるダイナミックな市場に歩調を合わせていくことができるのです。


Talend Data Streamsの紹介:誰もが使えるセルフサービスのストリーミングデータ統合

Talend Data Streamsは、Apache Beamによる比類ない移植性を保ちながら、ストリーミングデータ統合を数分で実行する、まったく新しいクラウドネイティブなアプリケーションです。 <<<<AWS 向けTalend Data Streamsを今すぐダウンロード>>>> Talend Data Streamsを使用する意義 今日、企業が直面している最大の課題の1つは、多様なストリーミングに対応しながら、ソーシャルメディア、Web、センサー、クラウドなどあらゆるところから集まる新しいタイプのデータを処理することです。 企業は、リアルタイムデータによって抜本的な変化が起きることがわかってはいますが、実際に対応するには困難が待ち受けています。 IoTデータの場合、モノ」に接続されたセンサーやインターネットからデータが常時発生し、データのストリームは止まることなく流れ続けます。 データには開始や終了がないので、典型的なバッチ形式によるデータの取り込みや処理は時代遅れな手法です。 デバイスが多様になり、さらに多種のデータフォーマットが混在しています。たとえば、1基の風力タービンには、油量、タワーの位置と揺れ、ブレードの圧力、温度などのデータを監視/収集するために数百ものセンサーが設置されます。 これらのセンサーは、ファームウェアがそれぞれ異なったり、それぞれ別のメーカー製であるかもしれません。 IoTデバイスには標準となる仕様がないことがよくあります。 また、多様なデバイスを組み合わせるためにデータのスキーマが予期せず変更されることがあり、データパイプラインが簡単に破損する可能性があります。 この問題を乗り越えたうえで、IT部門はビジネスオーナーにデータを提供しなければなりません。 データサイエンティストを対象とした最近の調査によると、35%を超えるデータサイエンティストが、データの入手が不可能である点を報告しており、データアクセスが難しいということが、データサイエンティストにとって最大の課題となっています。1多くのビジネスユーザーも同じ状況にあり、IT部門が対応できない場合には、彼ら自身で使用が可能な方法で、独自にクラウドアプリケーションやデータソースをアドホックに使用します。 Talend Data Streamsによる問題解決 このようなシナリオが繰り返される中で、既存/将来のお客様の問題解決を支援するためにTalendが構築したのが、Talend Data Streamsです。これがどのようなものか、以下に説明します。 Talend Data Streamsは、ストリーミングデータの統合を迅速かつ簡単にし、利用しやすくするセルフサービスのWeb UIです。データエンジニアだけでなく、データサイエンティスト、データアナリスト、その他のアドホックインテグレーターも、データを簡単に収集して利用できるようになります。 IT部門とビジネス部門のチーム間の隔たりを埋めるように構築されているため、より多くのユーザーがより多くのユースケースで使用できます。 <<<<AWS 向けTalend Data Streamsを今すぐダウンロード>>>> では、Talend Data Streamsにはどのような特長があるのでしょうか。 Talendユーザーが特に注目すべきいくつかの機能について、以下にご紹介します。 ライブプレビュー Talend Data Streamsのライブプレビューを使用すると、データ統合を段階的に設計できます。これは、「連続設計」と呼ばれます。 実際の動作を確認するために、パイプライン全体の設計、コンパイル、展開、実行、そしてテストとデバッグを行う必要がなくなりました。これは、データサイエンスでよく使われるREPL(Read-Evaluate-Print Loop)の概念に似ています。 設計プロセスのあらゆる段階におけるリアルタイムのデータの変化を、まったく同じ設計キャンバスで確認できるのです。これによって開発時間が大幅に短くなり、設計サイクルの短縮につながります。 スキーマレス設計 Talend Data Streamsは完全にスキーマレスであるため、 設計時間と実行時間の両方でメリットがあります。 設計者は、動的に検出されるスキーマを任意に適用できるので、パイプラインをより簡単に作成/調整できます。 また、スキーマの変更に対して、パイプラインはより高い復元力を持ちます。 たとえば、メッセージキューからのストリーミングでは、センサーやマシンのような複数のメッセージ構造が共存することがあります。 […]