月別: October 2017

データ戦略の成功の鍵となるデータクオリティ

朗報です。ガートナー社マジッククアドラントで、Talendがもうひとつのリーダーに位置付けられました。今回Talendがリーダーのポジションを獲得したのは、データクオリティツール部門です。リーダークアドラントにいる他のベンダーが評価を下げポジションを落とす中、Talendは市場におけるビジョンと実行への明確な注力により、概念先行型クアドラントからリーダークアドラントへとポジションを強化できたのだと思います。リーダークアドラントにいる他のベンダーが評価を下げポジションを落とす中、Talendは市場におけるビジョンと実行への明確な注力により、概念先行型クアドラントからリーダークアドラントへとポジションを強化できたのだと思います。 今年のガートナーレポートは、企業がデータクオリティに対する取り組みのために必要とするものが根本的に変化したことを表しています。データレイクが収集・管理するデータの量と種類が増え、速度が上がり続けるといった傾向が一向に衰えない状況において、データの関連性、直近性、範囲の定義といったデータクオリティの要件も同じ勢いで厳しくなると考えるのは当然です。市場では、ビッグデータ時代におけるデータ統合に向けた企業アプローチの「新旧交代」が発生していますが、オープンソースは、この潮流に相対して変化したというよりは、むしろ変化の原因となっていると考えられます。ここ10年で、オープンソーステクノロジーが強力なエンタープライズソリューションとして受け入れられるようになり、ベンダーごとの独自のソリューションや老朽化したソリューションに代わって、Apache Sparkのようなフレームワークが採用されるようになってきました。この変化にともない、進化を続ける市場のニーズに柔軟に対応する様々なフレームワークとの相互運用性を実現することが新たな顧客要件となっています。したがって、Sparkとの相互運用が制限される、またはそれができないベンダー独自のソリューションは、現在だけでなく将来のビジネスや顧客の要求に目を向けていないと言えるのではないでしょうか。それでも、クローズな独自のソリューションを提供するベンダーは、最もよくわかっているのは自社であるといまだに考えているのかもしれません。 データクオリティツールに関する今年のガートナーマジッククアドラントを見ると、Talendが以前に予測した方向へと市場が変化してきていることが確認できます。市場がクラウドとビッグデータに移行する中、顧客が必要としているのは、急速に進化するこれらの最先端テクノロジーに対応し、その管理に役立つ柔軟なプラットフォームです。そのための唯一の道が、オープンソースベースではないでしょうか。Talendはオープンソースベースであり続けました。しかも、あまり知られていないかもしれませんが、データクオリティは常にTalend Data IntegrationのDNAの一部でした。それゆえにTalend Data Fabricプラットフォームの中核となっているのです。GIGO(Garbage In Garbage Out:無意味なデータ入力から得られる出力は無意味である)」の概念が示すように、品質の低いデータに基づいて正確な意思決定を行うことなど考えられません。 データクオリティツールに関する今年のガートナーマジッククアドラントで、Talendが概念先行型クアドラントからリーダークアドラントへとポジションを高めたのは、ビジョンの完全性と実行能力が認められたためですが、それだけではありません。この評価は、Talendの方向性が正しいものであり、データ駆動型の推進を求める顧客に最適な形で対応していることが確認されたことを意味しています。今回のマジッククアドラントの発表を受けて、ブログ、プレスリリース、記事等でデータ品質のためのさまざまな製品やアプローチのメリットについて語られるようになるでしょう。ここでは、TalendコミュニティのメンバーであるAnalytics Inside社CEO、Michael Covert氏との最近のインタビューをご紹介します。 Nick Piette(以下、Nick): データガバナンスの推進を開始するとき、組織は最初に何をすべきでしょうか。 Michael Covert氏(以下、MC: 当社の顧客に対しては、データの内容調査とクレンジングの作業を最初に行うよう助言しています。処理対象のデータがどのようなものかを迅速に理解することが重要です。クレンジングがどの程度必要か、無効な日付フォーマットを使用していないか、句読点の削除や大文字の処理等の前処理が必要か等について把握します。今回の医療機関のプロジェクトでは、さまざまなデータソース(構造化データ及び非構造化データ)から法人情報を抽出する必要がありました。データは、会社名、住所、電話番号、雇用者識別番号(EIN)等、企業全体のマスターファイルに配置可能な情報を含んでいました。 Nick: ファイルタイプもフォーマットも様々な種類があることを考えると簡単な作業ではありませんが、この課題をどのように解決したのでしょうか。 MC: その鍵となるのは、自由形式のテキストから「名前付きエンティティ」を識別することです。この分野における当社の専門性を活用し、OpenNLPを使用して自然言語処理を行うソリューション(RelExtract)を構築しました。ここにTalendを使用することで、このソリューションをプロセスフローに簡単に埋め込むことができ、さらにマッチングと重複排除を実行できます。このプロセスを完全に自動化する方法はありません。使われる可能性があるバリアントを全て処理できる自動ルールを定義することは、非常に難しいか、または不可能です。そのため、場合によっては手動で処理する必要があります。 Nick: 重要な決定に必要なデータの背景をITが把握していない場合、その知識不足を組織はどのように解決するのでしょうか。 MC: 確かにそのような問題はあります。前処理と例外処理の両方の段階で、ビジネスユーザーが関わる必要があります。したがって、ITとビジネスユーザーのコラボレーションが可能なソリューションを選択することが、プロジェクトを前進させるうえで非常に重要です。だからこそ、Talendは当社にとって信頼のおけるプラットフォームとなっているのです。Talendは、完全なデータ分析フレームワークに加えて直感的なWebベースのインターフェイスも提供するので、ビジネスユーザーは単に参加するだけでなく、データガバナンスのイニシアチブをとることができます。 このプロジェクトでは、TalendData Preparationをビジネスユーザーに使用してもらいました。データのクレンジングをできる限り行うために、ビジネスユーザーはアドホックのデータソースを吟味し、データセットに適用可能な「レシピ」を編み出することができました。ビジネスコンテキストを確立した後は、当社と顧客のデータエンジニアが協力して統合パイプラインを構築し、さまざまなレコードを取り込み、前処理のレシピを参照し、クレンジングしたレコードを複数の「ゴールドレコード」データベーステーブルと比較できるようにしました。ほとんどの場合、レコードの一致が見つかってバリアントタイプが修復され、例外はTalend Data Stewardship Console(TDS)に書き込まれ、ビジネスユーザーが後でレコードを調べて修正(または破棄)することができました。 Nick: Talendのデータ統合プラットフォームには多くの利点があるということですが、他にはどのような利点がありますか。 MC: Talendのプラットフォームの柔軟性は特に大きな利点です。Talendを使用することで、チームは再利用可能なコンポーネントセットを容易に開発できました。このコンポーネントセットに基づいて、その後の全ての作業のためのアプローチを標準化しています。これによって開発の手間が大幅に削減されました(開発とQAの作業を削減)。さらに、当初は標準的なデータ統合環境に展開する計画でしたが、プロジェクトが拡大したために最終的にはビッグデータ環境で本番稼働することになりました。そのための再コーディングも必要なく、実際、コードが移行されたことに気付かない開発者もいたほどです。 Nick: 顧客にはどのような影響がありましたか。 MC: 当社の専門知識とTalendのプラットフォームを組み合わせたことで、過剰な作業を抱えこむIT組織へのビジネスの負荷が軽減されました。ITとビジネスユーザーを含むグループ間の話し合いにより、最終的には各部門が責任と成果物を調整でき、より大きなオーナーシップを持つようになりました。このプロジェクトは圧倒的な成功を収め、このソリューションは現在データアーキテクチャーの中核となっています。 ** Gartner does not endorse any vendor, product or service depicted in its research […]