実践ガイド:Talend Data Qualityを使用した構造分析

構造分析の実行

タスクの概要

データのプロファイリングのために、Talend Studioでは多様な分析を使用できます。構造分析によって、データベースとカタログに関する基本情報(テーブルの数、テーブルごとの行の数、索引の数、プライマリーキーの数など)を取得できます。この概要を起点として役立てることで、個別のデータソースを比較でき、また、データクオリティの要件を満たすために必要な構造がデータに含まれることを確認できます。

Talend Studioを起動した後は、ローカルのデータベースサーバーへの接続を確立します。続いて、CRMデータベースに焦点を当て、構造分析を使用して、MySQLサーバーに格納されたデータベースの概要を作成します。

トレーニング環境では、単一の仮想マシン(VM)を使用します。この仮想マシンには、チュートリアルを最後まで実行するために必要な、Talend StudioやMySQLを含むすべてのソフトウェアが含まれています。

Talend Studioの起動

  1. 仮想マシンを起動するには、同じページで新しいタブを開き、START VM!リンクをクリックします。

    Webブラウザーで仮想マシンが起動します。Windowsが起動するまで待ちます。

    スクリプトが自動的に開始されます。これを閉じるには、[X]ボタンをクリックします。

  2. 画面の右側に表示される[Networks]パネルで、[Yes]を選択します。

  3. Talend Studioを起動するには、仮想マシンのデスクトップでTalend Studioショートカットをダブルクリックします。

  4. Talend Data Fabricウィンドウが開きます。

    「DQ Essentials」というプロジェクトが使用可能になっています。

    [Finish]をクリックします。

  5. スプラッシュスクリーンが表示されることを確認します。

  6. [Start now!]ボタンをクリックします(下にスクロールしなければならないことがあります)。

    ウィンドウが開きます。

環境設定と使用可能なツールによって、画面が異なることがあります。

一般的に使用されるエリアが表示されます。

  • [DQ Repository]:データ分析とメタデータが格納されるエリアです。左上に表示されます。
  • ワークスペース:ジョブの作成/変更、分析の実行、結果の検査を実行するエリアです。中央に表示されます。

データベース接続メタデータの作成

  1. プロファイリングのパースペクティブをすでに使用していない場合は、[Profiling]アイコンをクリックします。

  2. メタデータを作成します。[DQ Repository]で、[Metadata]を展開します。

    [DB connections]を右クリックし、[Create Connection]をクリックします。

    トレーニング環境ですでに構成されているデータベースのコレクションに対して、接続を作成します。

    1. [Name]テキストボックスに、StagingDBと入力します。

    2. [Next]をクリックします。

    3. [DB Type]リストで、[MySQL]をクリックします。[Db Version]ボックスのデフォルト値は変更しないでください。

    4. 以下の設定を入力します。

        • [Login]および[Password]テキストボックスに、rootと入力します。

        • [Server]テキストボックスに、localhostと入力します。

        • [DataBase]テキストボックスは空のままにします(ローカルサーバーに構成されたすべてのデータベースにアクセスできるようにするため)。

    5. 接続情報を確認するには、[Check]ボタンをクリックします。

    6. [Check Connection]ウィンドウで、[OK]をクリックするか、または必要に応じて修正して再び[Check]をクリックします。
    7. [Finish]をクリックします。

      「StagingDB」という新しいデータベース接続がリポジトリに表示されます。

      ワークスペースには、この接続の構成情報が表示されます。

      必要に応じて接続設定を変更します。

接続概要分析の作成

  1. フォルダーを作成します。
    1. [DQ Repository]で、[Data Profiling]を展開します。

    2. 分析用フォルダーを作成するには、[Analyses]を右クリックし、[Create Folder]を選択します。

      名前をCRM_Analysisと指定し、[Finish]をクリックします。

  2. 分析を作成します。

    1. [CRM_Analysis]フォルダーを右クリックし、[New Analysis]をクリックします。
    2. [Structural Analysis]を展開し、[Connection Overview Analysis]をクリックします。

    3. バックグラウンド情報を読み、[Next]をクリックします。
  3. 分析をセットアップします。

    1. 分析を特定します。

      [Name]テキストボックスに、Database_Server_Connection_Analysisと入力します。

    2. [Next]をクリックします。
    3. 分析対象の接続を選択します。[DB connections]を展開し、[StagingDB](すでに作成したデータベース接続メタデータ)をクリックします。

    4. [Next]をクリックします。
    5. 分析を特定のテーブルまたはビューに制限できます。テキストボックスを空にすると、分析にはデータベース接続に関するすべての情報が含まれます。

    6. [Finish]をクリックします。

      ワークプレースに、結果を含まない分析が開きます。

結果の分析

  1. 分析を実行します。
    1. ワークスペースの上部に表示されている[Run]アイコンをクリックします。

    2. 分析の実行が成功すると、[Analysis Results]タブが表示されます。

      [Analysis Settings]タブと[Analysis Results]タブの間で切り替えるには、ワークスペースの下部に表示されているタブバーを使用します。

      [Statistical Information]セクションには、各データベースのグローバル統計が表示されます。

  2. CRMカタログを確認します。
    1. カタログに関する追加情報を表示するには、[Statistical Information]で、[Catalog]列に表示される[crm]をクリックします。

      左下のテーブルには、選択したカタログの各テーブルに含まれる行、プライマリーキー、索引それぞれの数が表示されます。

    2. 左下のテーブルで、[country]行を右クリックし、[View keys]をクリックします。

    表示には何通りかあります。[View]キーをクリックすると、[Profiling]パースペクティブから[Data Explorer]パースペクティブに変更できます。現在のパースペクティブは、右上に示されます。ここを1回クリックするだけで、パースペクティブを切り替えることができます。

    [Data Explorer]パースペクティブには、新しい要素が表示されます。

    • 分析結果の下には、[Database Detail]ビューが開き、countryテーブルのプライマリーキーに関する基本情報が表示されます。

      このテーブルの詳細は、[Database Detail]ビューのその他のタブに含まれています。

    • [Database Structure]ツリーは、ウィンドウの右側に表示されます。

      スクリーンショットで選択されているデータベースは、[Database Detail]ビューで表示されるデータベースと同じです。テーブルのプライマリーキーには、プライマリーキーであることを示すアイコンが付いています。

    • 左上に表示されるタブには、基本的な接続とSQL履歴の情報が表示されます。

  3. 再び[Profiling]ボタンをクリックします。

このチュートリアルでは、Talend Studioを起動し、パースペクティブについて学びました。データベース接続情報をメタデータとして作成し、DQリポジトリに格納しました。最後に、構造分析について学び、接続概要分析を作成・実行して、データベースに含まれる情報タイプの包括的な概要を表示しました。

チュートリアルはこれで終了です。

| 最終更新日時: September 2nd, 2019