Talend Big Data and Machine Learning Sandboxをビジネスに役立てる方法を実際に掘り下げる前に、正しいインストールについて説明します。
Sandboxとは?
Talend Big Data and Machine Learning Sandboxは、Dockerコンテナーを利用してTalend Real-time Big Data Platformと、構築済みですぐに実行可能なサンプルシナリオを組み合わせた仮想環境です。
以下のリンクでは、実際のユースケースに基づいて構築されたPOCがあり、Talend、Spark、NoSQL、およびリアルタイムメッセージングを日々のビジネスに簡単に統合できる方法を示しています。バッチ、ストリーミング、リアルタイムのデータ統合など、Talendを使用してビッグデータの課題に対処し、データ主導の時代にビジネスを対応させる方法を理解できます。
POCにアクセスする:
これらの構築済みサンプルシナリオを実行することで、Sandboxを最大限に活用できます。
Sandboxのシステム要件
Sandboxは仮想マシン(VM)としてパッケージ化されており、仮想マシンプレーヤーが必要です。
サポートされるVMプレーヤー:
- VMWare
- VMWare Fusion(MACユーザー)
- VirtualBox
推奨されるホストマシン:
- 8〜10GB以上の利用可能なRAM
- 50GBのディスク空き容量
VMプレーヤーのインストール手順に従って、任意のプレーヤーをダウンロードしてインストールすると、Talend Big Data and Machine Learning Sandboxをダウンロードしてインストールできるようになります。その後、Sandboxのデモ(上記のリンク)を使用して、Apache Kafka、Spark、Spark Streaming、Hadoop、NoSQLを統合できます。
Sandboxのセットアップと構成
Talend Big Data and Machine Learning Sandboxのインストールと構成を完了するには、安定した信頼できるインターネット接続が必要であることに注意してください。オンライン登録を完了し、希望のSandboxダウンロードファイルを選択すると、小さなダウンロードマネージャーアプリケーション(.dlm)を受け取ります。このアプリケーションを開き、Sandboxのダウンロードの残りの操作を管理します。Talend Big Data and Machine Learning Sandboxは6GBのOpen Virtualization Format Archive(.ova)ファイルであり、インターネット接続速度によってはダウンロードに時間がかかる場合があります。このため、ダウンロードマネージャーアプリケーションではダウンロードプロセスを一時停止して再開することが可能です。
ダウンロードが完了し、.ovaファイルをローカルのハードドライブ(C:/TalendSandbox)に保存したら、選択した仮想マシンプレーヤーと対応するSandboxファイルに基づいて、VirtualBoxへのインポートまたはVMWareへのインポートの指示に従って操作します。
VirtualBox
- VirtualBoxアプリケーションを開く
- ファイルメニューで、[File] > [Import Appliance…]を選択します。
- ダウンロードした.ovaファイルにナビゲートし、これを選択して[Next]をクリックします。
- デフォルトのアプライアンス設定を受け入れ、[Import]をクリックします。
VMWare
- VMware Playerアプリケーションを開きます。
- [Open a Virtual Machine]をクリックします。
- ダウンロードした.ovaファイルにナビゲートし、これを選択して[Open]をクリックします。
- 新しい仮想マシンの格納場所(C:/TalendSandbox/vmware など)を選択し、[Import]をクリックします。
Talend Big Data and Machine Learning Sandbox仮想マシンは、8GBのRAMと2つのCPUで動作するように事前構成されています。PCの機能に基づいてこれらの設定を調整することが必要となる場合があります。MapRの例を実行するには、可能であればVM RAMの設定を10GB以上に増やすことをお勧めします。
仮想マシンの初回起動時
Talend Big Data and Machine Learning Sandboxを初めて起動すると、仮想マシンはまずSandboxのセットアップを追跡するWebランディングページを読み込みます。このプロセスは、インターネット接続速度とネットワークトラフィックに応じて15〜30分かかることがあります。しばらくすると、Hadoopプラットフォームを選択するように求められます。Cloudera、Hortonworks、またはMapRから選択できます。Hadoopプラットフォームを選択せずにSandbox環境を探索することもできます。ある時点でプラットフォームを選択したり、別のプラットフォームに変更したりする場合は、ランディングページの右上にある[Choose a Hadoop Platform]をクリックして、いつでも利用可能なプラットフォームにアクセスできます。
ロード中は、Sandboxのビルドプロセスが完了するまで辛抱強く待ち、この間にTalend Studioを開かないよう注意してください。Sandboxの使用準備が整ったことを示すメッセージが表示されたら、仮想環境で作業を開始できます。
Sandboxの正式準備が整ったら、ランディングページをスクロールダウンすることで、追加のリソースやデモコンテンツにアクセスできます。ここでは、Sandbox内でデモを実行する方法に関するクイックスタート手順を提供するデモ固有のWebアプリケーションにアクセスできます。また、[Hadoop Cluster]を選択してHadoop Cluster Resource Manager WebUIにアクセスすることも、[HDFS Browser]を選択してHDFS WebUIにアクセスすることもできます。
MapRディストリビューションを使用すると、HDFS BrowserからMapR Control System(MCS)に移動し、そこでボリューム、データテーブル、ストリームを確認できます。Firefoxでこれにアクセスするには、例外証明書を追加する必要があります。
Talend Real-Time Big Data Studioの起動
Sandboxが実行するようになったので、Talend Studioを起動できます。デスクトップの左側のバーにあるTalendのアイコンをクリックします。初めて実行するときは、次の手順に従ってください。
- まず接続を構成する必要があります。[Manage Connection]をクリックしてメールアドレスを入力し、[OK]をクリックします。
- 次に、開きたいプロジェクトを選択します。選択したビッグデータプラットフォームに応じて、次の選択肢があります。
- CLOUDERA_DEMOS
- HORTONWORKS_DEMOS
- MAPR_DEMOS
- LOCAL_DEMOS(Big Data Platformをロードしない場合)
注記:複数のビッグデータプラットフォームをダウンロードした場合は、いくつかのプロジェクトが表示されます。選択したビッグデータプラットフォームに応じて選択します。
- Talend Studioが開き、[Welcome]画面が表示されます。この画面を閉じると、追加パッケージをインストールするためのポップアップが表示されます。[Required third-Party libraries]を選択したままにし、[Optional third-party libraries]を選択して[Finish]をクリックします。
- 同意が必要なすべてのサードパーティライセンスに同意します。[I accept the terms of the selected license agreement]ラジオボタンをクリックして、[Accept All]をクリックします。
- ダウンロードが完了するまで待ってから、続行します(ダウンロードにはしばらく時間がかかることがあります)。
最も利用されているリソース
どこから始めてよいかわからないという方へ。