Talend Data Preparationのバージョンの選択方法

article in English

IGartner社は、最近発表したセルフサービス型のデータプレパレーションに関するマーケットガイドの中で、「データ及び分析を提供する組織は、さまざまなコンテンツ作成者向けに俊敏でキュレーションされた社内外のデータセットを提供することによって、2019年までにビジネスのメリットを倍増できる」[1]と予測しています。[1].

現在の組織は膨大なデータを抱えていますが、ほとんどの企業は収集する情報の一部しか活用していません。 セルフサービス型のデータプレパレーション戦略を導入することで、組織全体でデータをより広く使用し、データ駆動型の文化を創出していくことができます。しかし、これは簡単なことではありません。 データヒーローとして組織をデータ駆動型ビジネスに変革することを目指すITリーダーにとって、データワーカーがほとんどの時間(推定で年間500時間、22,000ドルに相当)を、データから知見を得る前のデータの収集、修正、フォーマット処理に費やしているという事実は非常に大きな問題です。 さらに、データソースが制御されない形で拡散するリスクについても懸念があります。

Talend Data Preparationの最新リリースは、新しい問題解決手段を提供し、 明らかなビジネス上の利点をより迅速かつ容易に達成できるようにするだけでなく、現代のデータプラットフォームの到達範囲をより広範なオーディエンスに拡大することも可能にします。 TTalend Data Preparationは、IT開発者から、データアナリスト、データスチュワード、データサイエンティストなどのビジネスインフォメーションワーカーに至るまで、企業内の全員の企業情報へのアクセスを高め、日常業務に役立てることができるように設計されています。 さらに、従業員の生産性とビジネスの知見を向上させるための広範なデータアクセスとコラボレーションの必要性と、ITが制御するデータガバナンスとの間で、バランスをとるよう設計されています。

デスクトップ、オンデマンド、またはエンタープライズ?

Talend Data Preparationのバージョンの違いについては、頻繁に質問を受けます。 そこで、組織がビジネスインフォメーションワーカーのニーズに最適なTalend Data Preparationを選ぶうえでの指針として、各バージョンの特長について説明します。

これらのバージョンについては、次のように簡単にまとめることができます

-       セルフサービス型のデータプレパレーションを直接所有したい場合、またはデータ駆動型タスクを自立して実行したい場合は、無料デスクトップが適しています。また、クラウドファーストの戦略をとっている場合は、オンデマンドAWS版をお勧めします。

-      業務におけるデータの価値を最大化するためのチームの一員として活動している場合、またはデータワーカーのコミュニティ向けに管理されたセルフサービス型データアクセスを確立することを目指している場合は、サブスクリプション版を検討すべきでしょう。

個人の生産性を飛躍的に高めます

無料デスクトップ版は、個人の生産性改善用ツールと考えることができます。 ビジネスワーカーがMacやPCにインストールし、自由に利用できる個人のデータセット(展示会での見込み顧客リスト、月次財務予測、報酬測定トラッカー等)を処理できます。このタイプのデータは、通常はExcelまたはCSVファイルとして使用できます。 Talend Data Preparationで「クリーンアップ」したExcelファイルは、CSVファイルまたはExcelファイル、あるいはTableauにエクスポートできます。 デスクトップリソースがデータボリュームを処理できる限り、Talend Data Preparationのオープンソース版でも問題ありません。 ITalendはこれまでの経験上、ビジネスユーザーが一般的には何万行でもインタラクティブに処理できることから、行数の上限をデフォルトで3万行に設定しています。

Download it now here (ダウンロード)

オンデマンド版: クラウドからアクセスできます

最近、TalendはAmazon Web Services向けのTalend Data Preparationもリリースしました。 これは、デスクトップにインストールする必要のない無料のシングルユーザー版です。リモートからブラウザーを使用して接続するだけで、無料デスクトップ版とほぼ同一の機能を利用できます。Amazon Web Servicesに精通しており、アクティブなユーザーアカウントを持っている場合は、このバージョンを試してみる価値があります。

Access it now here (今すぐアクセス)

エンタープライズ版:データのコラボレーションとガバナンスを実現します

Talend Data Preparationのエンタープライズ(サブスクリプション)版は、企業全体向けに管理されたセルフサービス型プラットフォームです。 このバージョンは、データセットの準備をデータワーカー間で共有及び再利用するためのロールベースのアクセス及びコラボレーション機能を提供します。実際の操作については、ビデオをご覧ください

Talendプラットフォームを使用すると、企業内のほぼ全てのデータソースに接続し、ファイルをセルフサービス型データセットとしてバッチまたはリアルタイムで公開できます。 前述したように、Talend Data Preparationのエンタープライズ版は、サーバーベースの処理とサンプリングによって大規模なデータセットを処理できます。さらに、ユーザー定義のプレパレーションレシピをTalend Data Fabricプラットフォームにプッシュバックできる点も重要です。 この場合、エンタープライズ全体のあらゆるクラウドまたはオンプレミスのデータソースに接続し、データマスキング、高度なマッピング、複雑なマッチング等、Talend Data Fabricが提供するハイエンドの機能と組み合わせて、スケジュールに従ってデータを処理したり、リアルタイムデータフローに適用したりできます。

このバージョンは簡単に使用開始できます。既存のTalendユーザーは、Talendのサブスクリプションの一部として、ユーザー指定の無料ライセンスを2つ使用する権利が付与されています。  また、半日のオンデマンドトレーニングセッションと2日間のクイックスタートコンサルティングパッケージを利用して、Talend Data Preparationの実装、管理、使用方法を習得できます。

新規に使用するにあたってソフトウェアについて知りたい場合は、Talend Data Preparationの無料デスクトップ版をTalendのWebサイトからダウンロードして試すことができます。

どのバージョンを選択する場合も、組織はビジネス上の多くのメリットを得ることができます。その中のいくつかについて、詳しく見てみましょう。

選択的サンプリングによる大規模データボリュームの処理

データプレパレーションはインタラクティブな操作を伴います。 データはスプレッドシート形式のユーザーインターフェイスでデータワーカーに提示されるため、品質を修正し、強化し、コンテキストに適合させるために必要なアクションを簡単かつ迅速に見つけ出すことができます。

このような操作は、比較的小さなデータセットでは問題ありませんが、拡張してより大きなセットを使用することが課題となります。 この課題に対処するためにはデータサンプリングが不可欠であり、Talendの商用版はこの機能を導入しています。Talend Data Preparationの最新リリースは、選択的サンプリングによって、この機能を新しいレベルに引き上げます。選択的サンプリングでは、データワーカーは処理対象のサンプルを指定できます

たとえば、Salesforce.comの32,000行の連絡先データ、具体的には米国の州のデータをクレンジングする場合を考えてみましょう。デフォルトでは、Talend Data Preparationはインタラクティブな準備のためにデータセットのサンプルを取得します。 Tセマンティック辞書を使用することで、1つの列が特定の州を指すことを理解するだけでなく、そのデータタイプに無効な値にユーザーの注意を促します。 ユーザーはそのサンプル内で無効な州を含む行を選択し、1つのセルで「Texas」を「TX」に修正して、これを全ての行に適用できます。 ただし、サンプルでは考慮されていないデータセット内の州の列に、他にも無効な値が存在する可能性があります。選択的サンプリングにより、Talend Data Preparationは、無効な州の現在のフィルターに一致する行をさらに選択して、準備を改善します。この操作では、全ての無効なデータを修正できます。たとえば、アイオワ州(IA)に関連するデータ品質の問題を強調表示できます。

列全体でデータをより速く修正

Talend Data Preparationは、データのセマンティクスを自動的に検出できるため(たとえば、データセットの最初の列は名、2番目は姓、3番目は電子メール、4番目は電話番号)、それらのデータタイプに自動的に適合しない無効なデータを強調表示できます。この機能は、データワーカーがデータセット内のエラーを修正する際の効率を向上させるのに非常に役立ちます。

Talend Data Preparationの最新リリースでは、単純な1つのアクションで無効または空の値を持つ全ての行にフィルターを適用することによって、修正が必要なセットをすばやく特定できます。スマートサンプリングと組み合わせると、この機能は大規模データセットのデータ品質を管理するうえで非常に便利です。

次のビデオは、マーケティングの見込み顧客リストに仕事用電子メールのみを残す場合の操作を示しています。 電子メールの部分を抽出した後、1回のアクションで「gmail.com」と「yahoo.com」の電子メールアドレスをデータセットから削除します。マルチフィルター:時間を節約し、個人の生産性を向上します。

Talend Data Preparationは生産性向上のために、複数の情報の列に対して同じ標準化を実装する必要がある場合に、アクションの繰り返しを回避する機能も提供しています。これについては、30,000人の早期導入ユーザーの多くから要望が上がっていました。Ctrlキーを押しながらクリック、またはShiftキーを押しながらクリックして複数の列を選択し、これらの列に機能を適用できます。

次のビデオは、2つの列が日付列であり、両方に正規化されていないデータが含まれていることが示されています。Talend Data Preparationでは、両方の列を標準化できます。 両方の列を選択し、「日付形式の変更」機能を1回適用します。クレンジングに要する時間を半分に短縮できます。

場所、IBAN、及び気温を扱う操作

ISO2の国コードを使用する場合(商用版)、データはチャートタブに世界地図の形式で表示されます。 このタブの他のチャートと同様、この地図はインタラクティブであり、値をクリックしてドリルダウンできます。商用版では、米国のインタラクティブマップも導入されており、これを使用して米国の州を表す2文字の略称を処理できます。

IBANもサポートされ、パターンの制御とフォーマットの標準化以外にも、IBAN検証アルゴリズムが組み込まれています。Talendのデータマスキング機能は、非常に機密性の高いこのデータにも完全に適用されます。

天気のデータやセンサーのデータを扱う場合、温度のデータの測定単位を摂氏、華氏、ケルビンの間で切り替えるための新しい「変換温度」が提供されます。

データセットの準備の設計と維持

プレパレーションの設計は臨時的な操作です。特に、多くのステップを必要とするプレゼンテーションを扱うときなど、新しいステップを追加する場合に、準備シーケンスのもっと早い段階で適用しなければならないことに気が付くことがあります。 このような場合、このステップを適切なシーケンスに動的に移動したり、準備を維持しながら任意のタイミングで準備ステップの順序を変更したりできます。 これによって、多数のステップを含む複雑な準備のメンテナンスが各段に簡単になります。特に、ルックアップファイルに対してデータを標準化する場合に便利です。

ここでは、全製品のリストから店舗ブランド商品を特定します。 いつもどおり、ルックアップ機能を使用して、製品カタログのコアデータセットと店舗ブランド商品を一覧する外部データセットを組み合わせます。理論的には、要求された結果を得るには1つのステップが必要です。 しかし今回、ルックアップの実行後も一致しない値があり、一部のセルに含まれる空白が原因となっています。 したがって、これらの空白を削除し、レシピのステップを並べ替えてクレンジングを待ちます

[1] Gartner Research, Inc., ‘Market Guide for Self-Service Data Preparation,’ Rita Sallam, Paddy Forry, Ehtisham Zaidi, Shubhangi Vashisth, August 2016.

 

Share

Leave a comment

コメントを追加

More information?