クラスター接続メタデータの作成

このチュートリアルでは、Cloudera Managerに接続してHadoopクラスターメタデータを自動的に作成します。

このチュートリアルでは、Talend Data Fabric Studioバージョン6とHadoopクラスター(Cloudera CDHバージョン5.4)を使用します。

1. 新しいHadoopクラスターメタデータ定義を作成します

  1. [Integration]パースペクティブが選択されていることを確認します。
  2. プロジェクトリポジトリの[Metadata]を展開して[Hadoop Cluster]を右クリックし、[Create Hadoop Cluster]をクリックしてウィザードを開きます。
  3. [Hadoop Cluster Connection]ウィザードの[Name]フィールドにMyHadoopClusterと入力します。[Purpose]フィールドにCluster connection metadataと入力し、[Description]フィールドにMetadata to connect to a Cloudera CDH 5.4 clusterと入力してから、[Next]をクリックします。

Hadoop Configuration Import wizardウィザードが開きます。

2. 自動設定方法を選択します

  1. [Hadoop Configuration Import]ウィザードの[Distribution]リストで[Cloudera]を選択し、[Version]リストで[4(YARN mode)]を選択します。

    Hadoopクラスターメタデータを作成するには、次のようなさまざまな方法があります。

    - AmbariまたはCloudera Managerから設定内容を取得することによる自動設定
    - Hadoop設定ファイルから設定内容をインポートすることによる自動設定
    - 手動による設定
    .
  2. 自動設定方法を選択するには、[オプション]パネルで[Retrieve configuration from Ambari or Cloudera]を選択し、[Next]をクリックします。

3. Cloudera Managerに接続します

Cloudera Managerは、Cloudera CDHクラスターを管理するためのエンドツーエンドのアプリケーションです。接続情報を取得して、対応するメタデータを作成するには、Cloudera Managerに接続します。

  1. Cloudera Managerに接続するには、Cloudera Managerの認証情報を入力します。[Manager URI (with port)]ボックスにhttp://clusterCDH54:7180と入力します。[Username]ボックスと[Password]ボックスにadminと入力し、[Connect]をクリックします。

    Cluster 1という名前のクラスターが[Discovered clusters]リストに表示されます。
  2. 検出されたクラスター設定を取得するには、[Fetch]をクリックします。

    ウィザードが設定ファイルを検出し、対応するサービスのリストを表示します。このチュートリアルでは、デフォルトの設定をそのまま使用し、YARN、HDFS、Hive、HBaseのメタデータ定義を作成します。Sparkの定義は利用できません。
  3. 作成したHadoopクラスターメタデータに設定内容をインポートするには、 [Finish]をクリックします。

4. Spark以外のリストされたサービスに対応するメタデータを作成します

  1. [Hadoop Cluster Connection]ウィザードの認証パネルで、ユーザー名にstudentと入力し、[Check Services]をクリックします。[Checking Hadoop Services]ウィンドウが開きます。NamenodeとResource Managerのステータスは100%です。
  2. [Checking Hadoop Services]ウィンドウを閉じます。[Hadoop Cluster Connection]ウィザードを閉じてメタデータを作成するには、[Finish]をクリックします。

5. リポジトリに作成されたメタデータを調査します

  1. [Repository]で[Hadoop Cluster]を展開します。
    これでメタデータ定義が利用可能になりました。
  2. YARNサービスに対応している[MyHadoopCluster]というメイン定義を展開します。[HBase][HDFS][Hive]を展開します。

メタデータ定義がTalendジョブで使用できるようになりました。