機械学習ツール:TalendプラットフォームでのMLによるデータ統合の向上

ほとんどの業界において、ビッグデータの活用やビジネスインテリジェンスで競争力を維持するには、莫大なデータをリアルタイムで処理して分析できるビッグデータパイプラインが必要です。機械学習ソリューションをMicrosoft AzureApache Sparkに統合すれば、これらのシステムの開発を加速してメンテナンスを容易にできますが、多くの場合、機械学習ソリューション自体が複雑です。

Talendは、セルフサービスの使いやすいツールとテクノロジーの包括的エコシステムを提供することにより、機械学習(ML)の複雑さを軽減します。これらのツールやテクノロジーにより、MLがビッグデータプラットフォームにシームレスに統合され、また複雑なR、Python、Javaといったプログラミングの習熟も不要です。高いスキルが求められないので、データの知見をより迅速かつ低コストで実現できます。

機械学習コンポーネントは、使いやすく、即座に使用開始できます。データエンジニアは、モデルの構築方法を学ぶ必要はなく、その時間を使ってビッグデータに集中し分散システムを構築できます。データサイエンティストは、モデルの構築やアルゴリズムの作成といった得意分野で全力投球できます。異なる役割を担う人々が必要に応じてそれぞれのタスクを実行できるので、効率が高まり、開発時間が短縮されます。

再生 Fundamentals of Machine Learning をダウンロードする
今すぐ見る

Talendの機械学習のユースケース

Talendのビッグデータテクノロジーと機械学習コンポーネントを組み合わせることで、MLプロセスの結果を迅速に展開してビジネスの緊急の問題を解決できます。銀行、保険会社、航空会社、ホテルなど、多くの組織が機械学習を利用しています。あらゆる業界やビジネスのニーズで、機械学習を活用できます。

Paddy Power Betfair(PPB)は、世界中に500万人の顧客を抱える世界最大のスポーツベッティング/ゲーミング会社です。複数のソースからの70TBのデータを統合クラウドプラットフォームに統合するためにTalend Real-Time Big Dataを使用することで、同社は開発時間を半分に短縮してデータの俊敏性と応答時間を大幅に向上させています。

即座に使用開始できる機械学習コンポーネント

Talendのツールセットにより、機械学習コンポーネントを即座に使い始めることができます。この既製のMLソフトウェアを使用することで、データの実務担当者は、経験の程度にかかわらず(アルゴリズムの仕組みや構築方法に関する知識がない場合でも)アルゴリズムを容易に使用できます。さらに、専門知識を持つユーザーがアルゴリズムを自在に微調整することも可能です。

機械学習コンポーネントはリアルタイムビッグデータプラットフォームに組み込まれているため、ユーザーはハンドコーディングを必要とせずにアナリティクスを実行できます。Talendの機械学習アルゴリズムは、それぞれの仕組みに応じて4つの領域に分類され、すぐに使用可能な多様なMLコンポーネントを含んでいます。

1. 分類アルゴリズム

機械学習における分類はデータマイニング手法であり、大規模なデータセットでパターンを見つけるために使用されます。観察(インスタンス)を含み、カテゴリーメンバーシップが既知のトレーニングデータのセットを使用して、観察が属するカテゴリー(部分母集団)のセットを識別します。

分類アルゴリズムには2つのタイプがあります。

  1. バイナリー分類 — 可能な結果は2つだけです。
  2. マルチラベル分類 — 可能な結果は複数です。

分類アルゴリズムのユースケースには、スパムメールの検出、画像の分類、顧客センチメント用のテキストのマイニングが含まれます。目的は、既知の例から部分母集団(ラベル)を予測することです。

Talendの機械学習分類コンポーネントには、tClassify、tClassifySVM、tDecisionTreeModel、tGradientBoostedTreeModel、tLogicRegressionModel、tNaiveBayesModel、tPredict、tRandomForestModel、tSVMModelが含まれます。

2. クラスタリングアルゴリズム

クラスター分析(クラスタリング)は、探索的データマイニングの主要タスクであり、統計的データ分析に使用される一般的な手法です。

たとえば、K平均法クラスタリングは教師なし学習の一種です。最も単純な教師なし学習アルゴリズムの1つであり、特定の数のクラスターを介して与えられたデータセットを分類する問題を解決するために使用されます。K平均法のユースケースには、価格のセグメンテーション、顧客ロイヤリティの見極め、不正の検出が含まれます。

Talendの機械学習クラスタリングコンポーネントには、tKMeansModel、tPredict、tPredictClusterが含まれます。

3. レコメンデーションアルゴリズム

レコメンダーシステムとも呼ばれ、アイテムに対するユーザーの評価や嗜好を予測しようとする情報フィルタリングのサブクラスです。

コラボレーティブフィルタリングはレコメンデーションアルゴリズムの一種であり、ユーザーベースまたはアイテムベースとなります。どちらのアプローチも、目的は、多くのユーザー/アイテムからの嗜好(コラボレーション)に基づいてユーザー/アイテムを自動的に予測(フィルター)することです。

Talendの機械学習レコメンデーションコンポーネントには、次の2つのタイプがあります。

  • tALSModel — このコンポーネントは、特定商品に対するユーザーの嗜好について、先行するSparkコンポーネントからの大量の情報を処理します。微調整された商品レコメンダーモデル(Parquet形式)を生成して書き込むために、これらのデータセットに対してALS(交互最小二乗法)の計算を実行します。
  • tRecommend — このコンポーネントは、先行するSparkコンポーネントからのデータをリコメンダーモデルを使用して分析し、ユーザーの嗜好を推定します。ALSModelによって生成されたユーザー商品リコメンダーモデルに基づき、モデルが知るユーザーに対して商品を推奨します。

レコメンデーションシステムのアルゴリズムは、Googleが作成したYouTubeのディープニューラルネットワークレコメンデーションエンジンと同様に、ディープラーニング手法と組み合わせて莫大な量のビッグデータから予測を行うことができます。

Talendの機械学習レコメンデーションコンポーネントには、tALSModelとtRecommendが含まれます。

4. 回帰アルゴリズム

回帰テストは、変数間の関係を推定するための統計的プロセスです。従属変数と1つ以上の独立変数(「予測変数」)との関係に焦点を当てます。

具体的には、tModelEncoderコンポーネントは、前のコンポーネントからデータを受け取り、広範囲のフィーチャー処理アルゴリズムを適用して、このデータの列を変換します(単語のベクトル化、ハッシュ化、バケット化など)。次に、結果をモデルトレーニングコンポーネント(tLogisticRegressionModelまたはtKMeansModel)に送って、最終的に予測モデルを訓練して作成します。

Talendの機械学習回帰コンポーネントには、tModelEncoder、tLinearRegressionModel、tPredictが含まれます。

Talendの機械学習の使用開始

Talendの機械学習は、規模とパフォーマンスを向上させるためにHadoopのApache SparkとMicrosoft Azureを活用します。Sparkでは、Talend MLコンポーネントを利用して大規模データセットをリアルタイムで処理/分析できます。モデルを非常に迅速に構築でき、開発プロセスではなくビジネス成果に注力できます。

Talendの機械学習とSparkの詳細については、オンデマンドウェビナーの機械学習の基礎をご覧ください。教師あり学習、教師なし学習、強化学習手法の概要、Sparkと自然言語処理(NLP)について詳細に説明しています。

| 最終更新日時: December 21st, 2018