AWS環境でのデータ統合

IaaS(サービスとしてのインフラストラクチャ)ソリューション(最も有名なIaaSはAmazon Web Services(AWS))は、データアーキテクチャーの簡素化とコスト削減を求める企業や組織の間でますます人気を集めています。企業はIaaSを利用することで、必要な量のコンピューティングリソース、データストレージ、ネットワークだけをホストプロバイダーから購入できるのが人気の理由です。

AWSは現在世界のIaaS市場の40%を占めており、あらゆるセクターの企業や組織で使用されていますが、AWSプラットフォームへの移行を希望する企業の多くが、データ統合プロセスの複雑さを管理する方法を考え出すという課題を抱えています。しかし、適切な情報とツールがあれば、誰でもAWSデータ統合プロジェクトを開始できます。

ここでは、AWS環境でのETLとデータ統合の基礎を解説し、AWS統合戦略を策定する際に考慮すべき要素について説明します。

How Leading Enterprises Achieve Business Transformation with Talend and AWSをダウンロードする
今すぐダウンロード

AWSとは?

Amazon Web Services(AWS)は2006年、Simple Storage Service(S3)とElastic Compute Cloud(EC2)の2つの主力製品を発売しました。それ以来、AWSの製品はその範囲、深さ、数を増し、企業を対象にIaaS(サービスとしてのインフラストラクチャ)を提供することを専門とする巨大クラウドプラットフォームになりました。Synergy Research Groupが発表した報告によると、AWSは現在、世界のIaaS市場シェアの40%を占めています。

AWSプラットフォームは、セキュリティ、アナリティクス、開発ツールなど、幅広い製品を提供します。またAWSは、ゲーム開発、バーチャルリアリティ、機械学習といったより専門的なサービスも提供しています。このように多岐にわたるプラットフォームであるため、AWSとの統合を選択する企業は増え続けています。多くの企業にとっての問題は、「AWSと統合するかどうか」ではなく「どのように統合するか」です。AWS統合戦略を策定するための第一歩は、統合のプロセスがどのように機能し、物事を進めるには何をすればよいのかを理解することです。

AWSでのETL

一般的なデータ統合プロセスの1つは、ELT(抽出、ロード、変換)です。このプロセスでは、ソースからデータが抽出され、使用可能な形式に設定され、その後ターゲットの宛先に配信されます。データを設定するこの処理はデータ変換プロセスと呼ばれ、宛先に配信されたデータをすぐに使用できるように、データのソート、フィルタリング、集計、マッピング、クレンジング、エンリッチメントが行われます。

AWSでETLを実行するためのさまざまな戦略とツールがあります。開発者は一部を完全に自動化することも、手動での入力を要求することも、さらには自動プロセスと手動プロセスを組み合わせることも可能です。使いやすさ、完了までの時間、再現性、および管理可能なデータの複雑さによって方法は異なります。この傾向が特に強いのは、ETLの変換フェーズです。変換フェーズでは、いくつかの方法やツールで面倒な手作業によるコーディングのプロセスが必要です。

AWSとの統合に適したETLツールを特定する際には、次の2点を考慮することが重要です。

  • ETLツールには、ソースデータベースのスキーマを読み取り、データをカタログ化し、データを変換してAWSデータウェアハウスに投入するためのクエリーを自動的に準備する機能が必要です。
  • 自動化されたETLジョブを作成、設定、実行できるツールでなければなりません。(多くの場合、ETLプロセスは単一の独立したイベントではないため、これは重要な点です。したがって、ETLジョブを実行するたびに最初からやり直さずに済むように、AWSとの継続的な統合や再利用可能なコードの作成を可能にするETLツールを使用することが重要です。)

統合ツール

データ統合とは、単なるデータベースから別のデータベースへのデータ移行を意味するものではありません。データ統合はワークフローを合理化し、システムとコンポーネント間の通信を設定するプロセスでもあります。結局のところ、データから最大の価値を引き出すことができるのは、(データの移行だけではない)包括的な統合プロセスです。データ統合ツールを使用すると、データ移行への対応だけでなく次のことが可能になります。

  • 複数のシステムのワークフローをAWSに統合する
  • 基盤となる統合ワークフローを再利用可能にし、簡単にアクセスできるようにする
  • ジョブのスケジューリングとオーケストレーションを容易にする
  • データの一貫性を確保する

ほとんどの企業や組織にとって最も効率的で費用対効果の高い代替手段となるのは、包括的なクラウドベースのデータ統合ソリューションです。このアプローチは、AWSを既存のデータロードマップとシームレスに統合し、クラウドアナリティクス、データクオリティ、リアルタイムストリーミングなどの追加タスクに必要なすべてのツールを提供します。また、これらすべてのタスクはプラットフォームによって管理されるため、開発者の作業が簡素化され、企業に価値をもたらします。

AWSデータウェアハウスの特長

ここまではAWSとのデータ統合の基本について説明してきましたが、ここからはIT環境においてAWSの重要性が非常に高まっている理由を探っていきます。AWSは幅広いエコシステムと多岐にわたる機能を持っていることから、多くの企業や組織にとって魅力的な選択肢となっていますが、ほとんどのAWS統合で重要なのは実環境で有用な機能です。AWSとの統合が多くの企業の最優先事項である理由を理解するため、AWS統合の利点を示す2つのシナリオを詳しく見てみましょう。

柔軟な展開による効率の向上

多くの企業は、ローカルのオンサイトサーバーを使用してクラウド内のEMR/Redshiftクラスターにデータ更新を配信しています。更新の準備が整ったときにデータを確実に配信することを目的に、これらのクラスターは継続的な稼働が許可されているため、アイドル時にもエネルギーを消費し、コストを発生させています。

別のアプローチでは、必要なときに限りクラスターがアクティブになります。データ統合プラットフォームを使用してAWSに接続すると、開始機能と停止機能を設定することによって、1つのジョブだけに対応することも、指定した間隔で自動実行される反復ジョブを管理することも可能です。このオンデマンドインフラストラクチャは、必要なときにのみジョブが実行され、更新が完了すると中止されるように、わずか数分で展開できます。その結果、企業はクラスターが実際にアクティブであった時間に対してのみ料金を支払います。

業務の中断を回避するためのハイブリッドデータ統合

クラウドへのデータ移行を決定した企業や組織が検討しなければならないのは、統合プロセスが完了するまでの間現在のデータウェアハウスをどのように維持するか、です。AWS Redshiftをオンプレミスのデータウェアハウスと組み合わせて使用することで、運用を中断することなく、コストの削減と俊敏性の向上を実現するハイブリッドデータストレージソリューションを構築できます。使用するデータ統合ツールには、AWS Redshiftを使用してデータをシームレスに、予測可能かつ安全な方法で移行できるようにするコネクターが搭載されている必要があります。

ほとんどのクラウドベースのソリューションにはハイブリッド統合機能が備わっており、包括的なデータ統合ツールには、データの保存場所がどこであろうとデータ移行作業を完了させるためのさまざまなコネクターが搭載されている必要があります。

職場でのデータ統合の例

ここまでは、AWSとの統合プロセスと、企業がデータの移行を選択する理由について説明してきました。また、データ統合のプロセスや、適切なデータ統合ツールを使用することでシームレスな移行と効率化を実現する方法についても検討しました。では、実際に課題を抱えている企業からは、データ統合プロセスはどのように見えているのでしょうか。2つの事例を以下に示します。

AWSとの統合でコストを75%削減

ヘルスケア企業のAccolade社は、アクセス可能な大量のデータを利用して、パーソナライズされたサービスを顧客に提案し、業務を合理化したいと考えていました。データの大部分はサイロ型のレガシーシステムに保存されていましたが、データを最大限に活用するには、データの変換、移行、統合が必要であることをAccolade社は認識していました。同社が必要としていたのは、データレイクに移行してAWSと統合する前に、データのマッピング、復号化、プロファイル作成を実行できる包括的ソリューションでした。

すべてのデータをTalend Big Data Integrationと連携させることで、Accolade社はAWS Redshift、S3、およびEMRを使用して効率を高め、患者のケアを向上させることに成功しました。クラウドアナリティクスを充実させ、データに適用することで、Accolade社は患者の医療費を年間5~8%削減し、患者の入院プロセスを75%削減できました。

再生 Migrating to a Cloud Data Warehouse Architecture with AWS Redshift をダウンロードする
今すぐ見る

データ統合による教育へのアクセス拡大

ペンシルベニア大学では、給付型奨学金の方針に基づいて質の高い教育をより多くの学生に提供しており、学生は多額の学費ローンを負うことなく、研究を完成させることができます。この方針の実現は、30万人の援助資金供与者から成るネットワークに頼っています。

大学は2つの課題に直面しました。まず、複数のCMRシステムからのデータを一か所に統合する必要がありました。次に、スケーラビリティや柔軟な展開など、あらゆるコスト削減策を活用したいと考えました。そこで、Talend Cloudを使用することで、複数のソースからのデータを統合し、データマイニングを通じて後援者との関係強化につながる知見を獲得しました。その結果、贈与件数は7%増加し、収入が18%増加しました。

AWSとの統合に向けて

AWS統合戦略の計画と実行は大変な作業のように思えますが、必ずしもそうではありません。適切な統合ツールと情報があれば、誰でも迅速かつ確実に統合プロジェクトを進めることができます。

Talend Cloud Integration Platformは、AWSとのオンプレミス/クラウド/ハイブリッド統合の管理に役立ちます。強力なグラフィカルツール、統合テンプレート、および900を超えるコンポーネントを自由に活用できるため、統合の成功を確実なものにします。

今すぐ無償トライアル版をダウンロードして、AWSへの移行に必要なものすべてを入手してください。

| 最終更新日時: June 11th, 2019