データ統合とは?

データ統合とは、さまざまなソースからターゲットシンクへと、データの取り込み、クレンジング、マッピング、変換を行い、最終的にはデータの実用性と価値を高めることです。今日の企業は、特にデータおよび新しいクラウド/ビッグデータテクノロジーの増加を受けて、データをより効果的に分析して活用するためのデータ統合イニシアチブを確立しています。現代の企業が戦略的意思決定を強化し、競争力を高めるためには、データ統合が不可欠です。

The Definitive Guide to Data Integrationをダウンロードする
今すぐダウンロード

データ統合に普遍的なアプローチはありません。ただし、データ統合ソリューションには一般的に、データソースのネットワーク、マスターサーバー、マスターサーバーからのデータにアクセスするクライアントなどの共通する要素が含まれます。

典型的なデータ統合プロセスでは、クライアントはマスターサーバーにデータの要求を送信します。次に、マスターサーバーは内部および外部のソースから必要なデータを取り込みます。ソースから抽出され、まとまりのある統一された形式で組み合わせられたデータは、利用可能な一貫した形式でクライアントに提供されます。

Talendによってドミノ・ピザが 85,000を超えるデータソースからデータを統合した事例についてはこちらをご覧ください。

データ統合の重要性

企業が必要なデータをすべて取得していたとしても、多くの場合にデータは多数の異なるデータソースに存在しています。たとえば、顧客の360°ビューを獲得するという典型的なユースケースでは、CRMシステム、Webトラフィック、マーケティング業務ソフトウェア、顧客対応アプリケーション、販売/カスタマーサクセスシステムのデータやパートナーデータなどを組み合わせて使用する必要があります。これらの多様なソースからの情報は、アナリティクスのニーズや業務上の目的のために収集され、データエンジニアや開発者がそれらすべてを組み合わせるのはたいへんな作業です。

典型的なアナリティクスのユースケースを考えてみましょう。統一されたデータがない場合、1つのレポートを作成するために、複数サイトの複数アカウントにログインし、アプリケーション内のデータにアクセスし、データをコピーし、フォーマットを変更し、クレンジングしたうえで、ようやく分析を実行できます。

これらのすべての操作を可能な限り効率的に実行できるというのがデータ統合の重要性です。また、データ統合を慎重に進めていくことが大きなメリットであることも確認することができます。

データ統合によるコラボレーションの向上とシステムの統一

共有プロジェクトや個別のプロジェクトのために、さまざまな部門、さまざまな場所で活動する従業員が企業データにアクセスする必要性が高まっています。IT部門は、すべての事業部門でのセルフサービス型アクセスを介するデータのデリバリーのために、安全なソリューションを必要としています。

さらに、ほとんどの部門で従業員がデータを生成・改善し、そのデータは他の部門でも必要とされます。組織全体でのコラボレーションと統一を改善するためには、データ統合もコラボレーションと統一が必要です。

データ統合による時間の節約

データを適切に統合する措置を講じることで、そのデータのプレパレーションと分析に要する時間が大幅に短縮されます。統一的な表示を自動化することで、手作業でのデータ収集が排除され、レポートの実行やアプリケーションの構築のたびにデータ統合をゼロからはじめる必要がなくなります。

さらに、統合をハンドコーディングするのではなく適切なツールを使用することで、開発チームが活用できる時間(そしてリソース全体)が増えます。

これらのタスクで節約した時間は、組織の生産性と競争力を高めるための分析と実行といった、他の意義ある目的に使用できます。

データ統合によるエラー(および手直し)の削減

企業のデータリソースに関しては、対応すべきことが多数あります。手動でデータを収集する場合は、従業員は、データ探索に必要なすべての場所とアカウントを把握し、必要なソフトウェアをすべてインストールしたうえで、データセットが完全で正確であることを確認する必要があります。データリポジトリが追加された時に従業員がそれを認識していない場合は、データセットが不完全なものとなってしまいます。

さらに、データを同期するデータ統合ソリューションを使用しない場合、変更の報告のためにレポートを定期的に実行し直す必要があります。しかし、更新が自動化されていれば、レポートは必要なときにいつでもリアルタイムで簡単に実行できます。

データ統合によるデータ価値の向上

データ統合に取り組むということは、時間をかけて確実にビジネスデータの価値を向上させていくということです。一元化されたシステムにデータが統合されることで、データ品質の問題が特定され、必要な改善が実行されます。最終的にはデータの精度が向上し、これを基盤として高品質な分析を実現できます。

再生 Getting Started with Data Integration をダウンロードする
今すぐ見る

現代のビジネスにおけるデータ統合

データ統合は、ひとつのパッケージがあらゆる状況に等しく適用可能というソリューションではありません。個々のビジネスのニーズに応じて適切な構成は異なります。以下に、データ統合ツールの一般的なユースケースをいくつか紹介します。

ビッグデータの活用

データレイクは、高度に複雑化したり大規模になったりすることがあります。たとえば、FacebookやGoogleなどの企業は、数十億ものユーザーから絶え間なく受け取るデータを処理しています。このレベルの情報利用は一般的にビッグデータと呼ばれます。企業が収集するビッグデータが増えるのに伴い、ビジネスで活用可能なデータも増えます。つまり、洗練されたデータ統合の必要性が、多くの組織にとって運用の中心に位置づけられるようになります。

データウェアハウスの作成

データ統合イニシアチブは、複数のデータソースをリレーショナルデータベースに統合するデータウェアハウスの作成のため、特に大企業でよく使用されます。データウェアハウスにより、ユーザーはクエリーの実行、レポートのコンパイル、分析の生成、データの取得を一貫したフォーマットで実行できます。

データレイクとデータウェアハウスの違いについてはこちらをご覧ください。.

ビジネスインテリジェンス(BI)の簡素化

データ統合は、多数のソースからのデータを一元化することで、ビジネスインテリジェンス(BI)の分析プロセスを簡素化します。組織は、現在のビジネス状況に関する実用的な情報を得るために、利用可能なデータセットを簡単に表示し、迅速に理解できます。データ統合により、アナリストは大量のデータに圧倒されることなく、より正確な評価のために、より多くの情報をコンパイルできます。

BIはビジネスアナリティクスとは異なり、予測分析を使用して将来の予測を立てるものではありません。代わりに、戦略的な意思決定を支援するために現在と過去を記述することに焦点を当てます。データウェアハウスでは、利用しやすい形式で大局的な概要情報が適切に連携することから、このようなデータ統合の使用が適しています。

ETLおよびデータ統合

ETL(Extract/Transform/Load)は、データ統合内のプロセスであり、データはソースシステムから取得され、ウェアハウスに提供されます。これは、ビジネスインテリジェンスやアナリティクスのために複数のデータソースを有用で一貫した情報に変換する、データウェアハウジングの継続的プロセスです。

The Cloud Data Integration Primerをダウンロードする
今すぐダウンロード

データ統合の課題

複数のデータソースを単一構造内で1つの統一体に変換することは、それ自体が技術的な課題となります。データ統合ソリューションを構築するビジネスが増えるにつれて、必要な場所でデータを一貫して移動するための事前構築されたプロセスを作成することが課題となっています。これにより、短期的には時間とコストの節約が実現されますが、実装には多くの障害があります。

統合システムの構築で組織が直面する一般的な課題には、次のようなものがあります。

  • どのようにゴールに到達するか — 企業は通常、データ統合に期待するもの(具体的な課題の解決策)を把握しています。しかし、そこに到達するために必要なルートは、あまり考慮されません。データ統合を実施する場合は、分析が必要なデータのタイプ、データの収集元、データを使用するシステム、実行する分析のタイプ、データとレポートの更新頻度を理解する必要があります。
  • レガシーシステムからのデータ — データ統合には、場合によってはレガシーシステムに格納されたデータを含める必要があります。しかし、そのデータには、新しいシステムに一般的に含まれる活動の時間や日付などのマーカーが欠けていることがよくあります。
  • より新しいビジネスニーズからのデータ — 今日の新しいシステムは、さまざまなタイプのデータ(非構造化データ、リアルタイムデータなど)を、動画、IoTデバイスセンサークラウドなどのあらゆる種類のソースから生成しています。データ統合インフラストラクチャーをすばやく適応させて、これらすべてのデータを統合するというニーズを満たすことは、ビジネスの成功に不可欠ですが、データのボリューム、スピード、新しい形式が新たな課題をもたらしています。
  • 外部データ — 外部ソースから取得したデータは、内部ソースと同じ詳細なレベルでは提供されないことがあるため、同じ厳しい条件で検討することが困難です。また、外部ベンダーとの契約がある場合、契約の内容によっては組織全体でのデータ共有が困難になることがあります。
  • 取り組みの継続 — データ統合システムが稼働し始めたからと言って、タスクが完了したわけではありません。データチームは、ベストプラクティスや組織および規制当局からの最新の要求に沿って、データ統合の取り組みを継続する必要があります。

ビジネスデータの統合方法

データ統合には、ビジネスの規模、対応すべきニーズ、利用可能なリソースに応じて、いくつかの方法があります。

  • 手動によるデータ統合は、ユーザー各自がインターフェイスに直接アクセスして、さまざまなソースから必要なデータを手動で収集し、必要に応じてクレンジングして1つのウェアハウスに統合するプロセスです。これは効率が非常に悪く、一貫性がないため、最小のデータリソースを持つ最小規模の組織でない限り、利用する意義はほとんどありません。
  • ミドルウェアによるデータ統合は、ミドルウェアアプリケーションが仲介機能を果たし、データを正規化してマスターデータプールに投入する統合アプローチです(旧式の接続ポイントを使用する古い電子機器用アダプターのようなものです)。従来のアプリケーションは、他のアプリケーションとの連携がうまくいかないことがよくあります。このようなアプリケーションからのデータにデータ統合システムが直接アクセスできない場合に、ミドルウェアが役立ちます。
  • アプリケーションベースの統合は、ソフトウェアアプリケーションがデータの検索、取得、統合を行う統合アプローチです。統合時に、ソフトウェアは異なるシステムからのデータに互換性を持たせ、あるソースから別のソースへとデータを送信可能にする必要があります。
  • 統一アクセスの統合は、さまざまなソースからアクセスしたときにデータが一貫して表示されるようにするフロントエンドを作成することに重点を置くデータ統合です。ただし、データは元のソースに残されます。この方法を使用すると、オブジェクト指向のデータベース管理システムを使用して、異なるデータベース間で一貫性があるように提示できます。
  • 共通ストレージの統合は、データ統合時のストレージに最も頻繁に使用されるアプローチです。元のソースからのデータのコピーが統合システムに残され、統一的な表示用に処理されます。これは、ソースにデータを残す統一アクセスとは対照的なアプローチです。共通ストレージのアプローチは、従来のデータウェアハウジングソリューションの基本原則となります。

データ統合ツールで考慮すべき機能

データ統合ツールには、このプロセスを大幅に簡素化する潜在能力があります。データ統合ツールでは次の機能を考慮すべきです。

  • 多数のコネクター。世界中で多くのシステムとアプリケーションが使用されています。データ統合ツールに組み込まれているコネクターが多ければ多いほど、チームの時間節約につながります。
  • オープンソース。一般的に、オープンソースのアーキテクチャーは、ベンダーロックインを回避しながら柔軟性を提供します。
  • 移植性。ハイブリッドクラウドモデルに移行するにつれて、一度データ統合プロセスを構築し、その後どこでも実行できることの重要性が高まります。
  • 使いやすさ。データ統合ツールは、GUIインターフェイスで習得しやすく使いやすく、データパイプラインをより簡単に視覚化できるものである必要があります。
  • 明確な価格モデル。データ統合ツールのコストは、コネクターやデータボリュームの増加に応じて増加するものであってはなりません。
  • クラウドの互換性。データ統合ツールは、単一のクラウドでも、マルチクラウドでも、ハイブリッドクラウド環境でも、ネイティブに動作する必要があります。

データ統合の開始

現代のビジネスの要求と、それに伴うデータの急増に対応することの重要性が組織の急務として高まっています。あらゆる組織にとって、データ統合によって満たすことのできるニーズと、それを達成する方法、そして導入に伴う障害を理解することが、最善のデータ統合オプションを見極めるうえで有利な出発点となります。

データ統合のためにTalend Open Studioを今すぐダウンロードし、オープンソースのデータ統合ツールのメリットを享受しましょう。

| 最終更新日時: June 11th, 2019