月別: October 2016

過去10年の成長を振り返って

  創業10周年とIPOの成功を祝う機会に恵まれた今、Talendの豊かな歴史を振り返り、クラウド及びビッグデータソフトウェアの世界的リーダーとしての地位確立に尽力した人々に敬意を表したいと思います。 語りつくされた感があることですが、Talendの成功は、本質的には当社に加わって現在でも「ファミリー」の一員として活躍している多くの人々の貢献によるものです。 Talendは、経営陣の選択にとどまらず、投資家、経営陣、そして当然のことながら顧客、パートナー、従業員から絶大な支持を得ています。 初期:独自のアプローチ Talendがフランスで創業した当時、データ統合のグローバル市場は大きな岐路に立っていました。 データをめぐっては、複雑さ、量、統合が必要な種類、さらには企業の多様なニーズ(特に分析に関して)に劇的な変化が起こっていました。 Talendのプラットフォームを開発し始めた当初の私たちには、情報管理が企業情報システムの要となることに疑問の余地はないという直感がありました。 SAP、IBM、Oracle等の従来のモノリシックなITソリューションに対応する中で、ビジネスユーザーの統合のニーズはますます厳しくなり、具体化していくであろうと理解したのです。 かし、これらのベンダーが提案するソリューションは手頃な価格のものになっていくどころか、ますますコストがかかり、配備が難しくなっていきました。 独占的で排他的なアプローチを開発している既存大手ベンダーとの競合に直面したTalendは、確立された秩序、主流の技術、ビジネスモデル、市場ポジションを切り崩すことにに投資しました。 当時の習わしとは対照的に、Talendはオープンソース、そして集中型ではなく分散型のアーキテクチャーを採用する道を選択しました。また、データ量やCPU使用率ではなく、ユーザー数に基づいて価格体系を採用しました。このように、Talendは当初からローカルではなくグローバルのアプローチをとってきたのです。今考えると、これらの選択の妥当性は明らかです。しかし、Red HatとSalesforce.comが市場のイノベーターとして登場してきた2005年当時、状況は違っていました。 T Talendはビジョンの正当性を確信していましたが、このアプローチの評価と支援で大きな役割を果たしたのが、最初の投資家であるGalileo Partners社のRégis Saleur氏とAGF Private Equity社(現在のIdInvest社)のJean-François Galloüin氏でした。市場の慣習(私の知る限り、現在のように財務的支援を受けるオープンソースベンダーは当時は存在しませんでした)に逆らう形で取引成立に尽力した両氏の当時の支援は、Talendの長期的成功に欠かせないものとなりました。 初期の投資家からの支援とともに、顧客もTalend創業当初に決定的な役割を果たしました。 Citibankのリテールバンキング業務を担うCiti社をはじめとする重要顧客は、 Hadoopによってかつてない量のデータを処理できるようになった分析分野に大きなチャンスを見出しました。 Citi社との経験は貴重なものであり、HadoopのリーダーとしてのTalendの評価を確立するきっかけとなりました。 成熟、そしてさらなる(持続的な)選択肢の拡大 2006年10月に最初のソリューションを投入した後、ダウンロードの大部分が米国からのものであることを認識したTalendは、この地域で成長に勢いをつける絶好の機会であると考えました。 従来のテクノロジー企業が販売の見込み客を増やすために販促に予算を投じる必要があるのに対して、Talend等のオープンソース企業は無料オープンソース版や試用版を提供することで見込み客を獲得します。 もちろん、ダウンロードの見込み客を得るという商業的な機会にとどまらず、支援のエコシステムを形成するうえでも、シリコンバレーに拠点をかまえることが必要でした。 このため、2008年までにシリコンバレーに最初のオフィスを開設したことには、単なる資金調達手段としてではなく、企業戦略の核心をさらに推進させる意図がありました。 会社の成長に伴い、協働する能力を持つ最高の人材を採用することに努めました。 私たちの大きな要求に呼応するように、従業員も尊敬、野心、個人の卓越性に基づく力強い企業文化、人格、環境を持つこの企業に加わりました。 そして現在も、Talendが最初に採用した開発者15名は社内で活躍しています。 将来採用する従業員についても、これまでと同様にスキルだけではなくマインドセットも重視していきます。このやり方が成果を上げていることは実装済みです。 人的要素を重視する姿勢は、前述したように投資家の選択にも、そして取締役会のメンバーの選択にも反映されています。 これらの役割に対しても、Talendは最高の人材を求めました。 Business Objects社を創業したBernard Liautaud氏は、フランスで設立した会社を米国で大きく発展させるという経緯を持ち、このモデルに明確かつ独自に適合しています。 さらに、Ascential Software社の創業者であり、この市場で大きな影響力を持つPeter Gyenes氏をはじめとして、強力な人々の支援を受けました。 このような人材の多様性は、経営、課題、野望の複雑さを生む一方で、Talendの躍進(平均して毎年約2倍の勢いで成長)も可能にしました。 さらにTalendは、ビッグデータがもたらした技術革新の重要性を直ちに「感知」しました。数年前にTalendが策定した計画は、ビッグデータの市場機会が遅かれ早かれ現実のものとなるという予測を考慮するものでした。 ApacheのようなパートナーとTalendにとって、ビッグデータの台頭は特に重要な動きであり、. 今後の展望 後悔はないかとよく尋ねられますが、 最初に思い浮かぶ返答は「No」です。どのような革新的な企業でも同じでしょうが、間違いがなかったわけでは当然ありません。 そのような失敗がなければ一層順調に成長できたであろうことは確かですが、 代わりにTalendは間違いを謙虚に認めて直ちに軌道修正することを選択しました。 TalendはNASDAQ市場への上場を達成しましたが、 同社の歴史にとって画期的なこの出来事は決して冒険の終わりを意味するものではありません。 これは、創業当初のビジョンの妥当性を示すとともに、将来に向けて大きく前進していく機会を創出する重要な一歩なのです。 初期に築いた基盤は非常に強力なものであり、公開会社となったことで完全に構築し直す必要はありません 市場の急速な発展を考慮すると、Talendがイノベーションを推進し続けることが不可欠です。 ビジネスケースはもはや重要ではありません。 データは全てのビジネスプロセスの中核を成しますが、ほとんどの企業はその利点を十分に認識していません。このため、将来の市場は非常に大きな可能性を秘めています。 2005年後半にTalendを創業したことで、私たちはさまざまな可能性を広げました。この10年間の経験は無類のものであり、これまでの成功の過程でTalendが受けた多くの人々の貢献、そして今後の成功に向けた尽力に感謝します。これまでのTalendの成果は目覚ましいものですが、市場で可能性を十分に実現していくことで、Talendは今後10年間にさらに大きな成功を実現できると考えています。


ビッグデータガバナンスとメタデータ管理を成功させるためのTalendの5本の柱

  本シリーズの前回の記事では、データガバナンスによりビッグデータイニシアティブを持続可能な成功に導くための6つの鍵を検討しました。 これらの6つのステップは、TDWIが最近発表した「Governing Big Data and Hadoop(ビッグデータの管理とHadoop)」というレポートで明らかにされたものです。 このレポートは、独立した立場から課題とベストプラクティスについて取り上げていますが、Talendによる課題への具体的な取り組みについては明記していません。シリーズ第2回となるこの記事では、前回述べた6つの重要課題に対して、Talend Data Fabricの統一プラットフォームを構成する各主要コンポーネントがどのように対処できるかについて説明します。これを、メタデータ管理のためのTalendの5本柱と呼びます。 Talend Studioで設計するメタデータ メタデータがなければ、情報サプライチェーンの包括的で活用可能なビューを作成する方法はありません。 メタデータがなければ、情報サプライチェーンの包括的で活用可能なビューを作成する方法はありません。 メタデータは、場合によっては遡ってエンジニアリングすることもできますが、作成後のメタデータを即座にソースで収集、処理、保守、追跡する方がはるかに簡単です。 Talendを使用する場合、データフローはビジュアルなメタデータ駆動型環境で設計されます。 これによって、開発と展開が加速するだけではありません。データフローが実行されると、情報サプライチェーンの詳細なビュー(データの元の場所、保存場所、データポイント間の依存関係)が提供されます。 Map ReduceやSpark等の多くの強力なデータ処理環境は、SQL等の従来のデータ管理標準と違ってメタデータ駆動型ではないため、これはビッグデータの領域では非常に重要です。 Talend Open Studioのような高レベルの抽象化を提供し、ゼロコーディングアプローチを採用しているツールがなければ、Hadoopのデータ駆動型プロセスの管理、ガバナンス、保護は非常に難しくなります。 Talend Open Studioとその集中リポジトリは、常に最新のバージョンのデータフローを維持してデータ設計者や開発者の間で共有し、Cloudera Navigator、Apache Atlas、Talend Metadata Manager等の他のツールにエクスポートして、より広範なデータワーカーに公開できます。この最後の点に関する詳細は後述します。 さらにTalendは、開発者がデータ管理の全ての分野(データ統合、ビッグデータ統合、アプリケーション統合、クラウド統合、データクオリティ及びMDM、セルフサービス型データプレパレーション)を単一プラットフォームで使用することを可能にしています。これによってIT部門は、オンプレミスまたはクラウドの従来のデータとビッグデータの両方で、保存データと実行データの両方についてデータフローのグローバルビューを提供できます。 Talend Metadata Bridgeを使用してデータプラットフォーム全体でメタデータを同期する Talend Metadata Bridgeを使用すると、開発者はTalend Studio(及び、同様にTalend Metadata Manager)からメタデータをインポート及びエクスポートすることができ、ほぼ全てのデータプラットフォームのメタデータにアクセスできます。 100以上のコネクターが用意されているTalend Metadata Bridgeは、モデリングツール(Erwin、Embarcadero等)、ETLツール(Informatica、IBM DataStage等)、SQL及びNoSQLデータベース、Hadoop、人気の高いBI及びデータ検出ツール(Tableau、Qlik、BusinessObjects等、XMLまたはCobol構造等)からメタデータを取得するのに役立ちます。 これらのブリッジにより、開発者は一度設計したデータ構造を、さまざまなツールやプラットフォームにわたって繰り返し伝播させることができます。 これにより、ほとんどのサードパーティツールやプラットフォームからTalendにデータ形式を変換できるため、標準仕様を容易に適用し、変更を伝播させ、移行を容易にすることができます。 たとえば、Oracleテーブルを使用してTalendにインポートし、それをRedshift等の別のサードパーティプラットフォームに伝播させることが可能です。Talend Big Dataは、従来のETLジョブをネイティブのHadoopプロセスに簡単にオフロードできます。 Talend Big DataによりHadoopのガバナンスの課題に対応する Hadoopは、データの拡散を加速するよう設計されています。 また、データ、データ操作、及び関連メタデータの単一の参照ポイントとなる従来のデータベースとは異なり、Hadoopは複数のストレージ及びデータ処理オプションを組み合わせています。 さらに、高可用性戦略の一環として、Hadoopは多くのノードにわたってデータを複製し、処理ステップ間に生データの中間コピーを作成するうえで役立ちます。 このため、データ来歴はHadoop内部のデータフローのトレーサビリティと監査機能を提供するために重要です。 しかしHadoopは、オープンで拡張可能なコミュニティベースのフレームワークであるという優れた特長を持ちます。 弱点から、問題に対処し、それを強みに変えるイノベーションプロジェクトが生まれます。Apache AtlasとCloudera Navigatorは、Hadoopにおけるデータガバナンスの特定の課題に対処するための最も一般的なHadoop拡張です。 Talend Big Dataは、Cloudera […]


データガバナンスとメタデータ管理によりHadoopの道のりを切り開く6つのステップ

  この記事は、ビッグデータとHadoopの管理に焦点を当てた2部構成シリーズの第1回です。 データ駆動の旅に出発する準備ができていますか。 ビジネスケースとプロジェクトの青写真が明確に定義され、デジタルの変革に向けて経営幹部の支援もすでに取り付けています。 Hadoopに基づく最新のデータプラットフォームを実行する準備も整い、チームはビッグデータの明るい展望を組織内でより広く提供するためにスタート台についています。 しかし、まったく新しい挑戦を想像して躊躇しています。ビッグデータのスピードに対応する準備はできていますか。データレイクのデータの拡散から必然的に生じるリスクを制御する準備はできていますか。現在は少数のデータサイエンティストだけがアクセス可能なデータラボを、誰でもアクセスでき、重要なビジネスプロセスにシームレスに接続する、広く共有されるセルフサービス型のセンターオブエクセレンス(CoE)に拡張する準備はできていますか。 好むと好まざるとにかかわらず、セキュリティ、文書化、監査、トレーサビリティに関してエンタープライズが抱える従来の課題に対処しない限りは、取り組みを成功させる準備が整っているとは言えません。その一方で、ビジネス上の大きなメリットをもたらすための最新の方法として、データガバナンスによりHadoopイニシアチブを活用できるという朗報があります。 多様な新しいビッグデータの管理における6つ緊急課題への対応 Hadoopのデータガバナンスに関連する潜在的な利点とベストプラクティスを完全に理解するためにTalendが委託したTDWIのレポートでは、ビッグデータプロジェクトの成功を保証するための6つの柱が明らかにされています。 1.  データを危険にさらすことなく、幅広いユーザーにビッグデータのアクセシビリティを提供する。 セルフサービス型のアプローチとツールにより、ITリーダーは、データワーカーやアナリストが自律的に独自のデータプロビジョニングを実行できるように推進できます。しかし、このサービスを管理された拡張性の高い方法で提供するガバナンスの枠組みを最初に構築することなく、データ準備ツールをビジネスユーザーに引き渡すことは適切ではありません。 2.  スマートな発見と探索によりデータの取り込みを加速する。既存のデータプラットフォームを使用して新しいデータセットをオンボードし、適切なオーディエンスに公開するには、数週間、場合によっては数か月かかります。 現在、新しい「スキーマオンリード」のアプローチにより、ITとデータの専門家はデータのオンボードをデータ到着時に実行できます。 これが完了すると、すぐにデータワーカーのコミュニティ全体がデータに即時にアクセスできるようになり、いつでも臨機応変にデータの発見、モデリング、接続、調整を柔軟に実行できます。 3.  これが完了すると、すぐにデータワーカーのコミュニティ全体がデータに即時にアクセスできるようになり、いつでも臨機応変にデータの発見、モデリング、接続、調整を柔軟に実行できます。メタデータは、データ駆動型アプリケーションの重要要素であり、文書を埋め込むことでデータアクセシビリティを高め、生データにコンテキストを組み合わせて解釈を強化し、異種データポイント間を接続してデータから意味と知見を引き出します。 さらに、情報サプライチェーン全体の制御とトレーサビリティを実現します。現代のデータプラットフォームは、メタデータのキャプチャー、ステッチ、クラウドソース、及びキュレーションの新しい方法を提供します。 4.  データ管理の分野を共通のプラットフォームに統合する。 サイロはエンタープライズデータの価値を破壊し、品質とセキュリティの両方のリスクをもたらします。 T多様な統合形式にわたって一元的な制御とアクセスを確立しながら、データユーザーの責任を分散する必要があります。 5.  Hadoopの柔軟性を検討する一方で、ガバナンスの課題に注意する。 Hadoopは、より大規模で多様なデータをより迅速に処理して、より俊敏な方法でより多くのユーザーに配信できます。 しかし、極端に大規模、高速、広範囲での運用が可能になった現在、データのトレーサビリティと監査性、保護、文書化、ポリシー適用等を習得する必要があります。これらの課題に完全に対応するため、メタデータ駆動型プラットフォームと併せてApache AtlasやCloudera Navigatorのような環境を検討する必要があります。 6.  変化、継続的なイノベーション、多様性に対する準備を整える。ITシステムは、モノリシックからマルチプラットフォームへと進化しています。SQLデータベースはもはや、データのモデリング、保存、リンク、処理、アクセスの全てに対応する環境ではありません。   SQLデータベースはもはや、データのモデリング、保存、リンク、処理、アクセスの全てに対応する環境ではありません。 このシリーズの第2回では、Talend Big Data、Metadata Manager、Talend Data Preparation、及びTalend Data Fabricを使用して、Talendがどのようにこれらの課題に取り組むかをご案内します。


Talendのジョブ設計パターンとベストプラクティス(第3部)

このトピックに関する前回のブログ記事は大変好評だったようです。熱心な読者の皆様、ありがとうございます。 過去のブログ記事をまだ読んでいない方は、まずはこちら(Talendのジョブ設計パターンとベストプラクティス第1部と第2部)をお読みください。それぞれ異なるテーマを取り上げています。 ジョブ設計パターンとベストプラクティスの解説を始める前に、お知らせがあります。これまでのコンテンツを90分のテクニカルプレゼンテーションにまとめました。このプレゼンテーションは、「Talend Technical Boot Camps」にて、世界中で視聴いただけます。地域のイベントスケジュールは、TalendのWebサイトでご確認ください。プレゼンテーションでお会いできることを楽しみにしています。 このシリーズの内容について、コメント、質問、論点をお寄せください。ディスカッションを膨らませ、Talendコミュニティで展開できれば、と思います。「標準」ではなく「ガイドライン」であることを思い出してください。どうか、ご意見をお寄せいただき、ご協力をお願いいたします。 テーマを深める Talendプロジェクトをはじめとするソフトウェアライフサイクルを成功へと導くには、「開発者のガイドライン」の確立が不可欠であることを理解いただけたと思います。では、次に進みましょう。開発者のガイドラインの確立、チームによる採用、規律の段階的な浸透は、Talendで極めて大きな成功を収めるための鍵である、という点を解説します。これに、異論を唱える人はいないでしょう。Talendジョブの作成には、複雑な手順が必要です(ここでは詳しい説明はしません)。したがって、「ビジネスユースケース」、「テクノロジー」、「手法」を理解することによって、成功の確率が高くなります。時間をかけて、チームのガイドラインを作成することには十分な価値がありますし、成果があるはずです。 Talendユーザーが取り組んでいるユースケースの多くは、何らかの形でデータ統合プロセスに関連しています。データ統合はTalendのコアコンピテンシーであり、データの移動を意味します。データフローはさまざまな形態で発生するため、処理や操作の方法が重要になります。その重要性は非常に大きく、作成するあらゆるジョブの本質であるとも言えます。ビジネスデータの移動というユースケースにおいてTalendをテクノロジースタックの不可欠な要素として使用する場合、どのような手法を使用すればよいでしょうか。それはもちろん、これまでに解説したSDLCベストプラクティスなのですが、それだけではありません。データに関連する手法ですから、データモデリングも含まれます。これは、私の専門分野でもあります。私は、25年以上にわたるデータベースアーキテクトという経験の中で、数え切れないほどのデータベースソリューションの設計と構築に携わってきました。ですから、データベースシステムにもライフサイクルがあることを実感しています。フラットファイル、EDI、OLTP、OLAP、STAR、Snowflake、データボルトといったスキーマを問わず、データとそのスキーマが生成され、廃棄に至るまでのプロセスを無視することは、チームにとって弱点になり、最悪の場合は大惨事につながるのです。 このブログではデータモデリング手法は扱いませんが、適切なデータ構造設計を採用し、それに沿って使用することが非常に重要です。ぜひデータボルトのシリーズの記事をお読みいただき、今後掲載予定のデータモデリングの記事もご覧ください。現時点では、DDLC(Data Development Life Cycle)はベストプラクティスです。このことについて考えていただければ、私の意図を後で理解できるでしょう。 さらなるジョブ設計のベストプラクティス では、Talendのジョブ設計について、「ベストプラクティス」をさらにいくつかご紹介します。ここまでで、16のベストプラクティスを解説しました。あと8つあるのでお楽しみに(このシリーズには第4部があります。すべてを盛り込むことはできないので、記事を読みやすく分割しています)。 さらに検討すべき8つのベストプラクティス コードルーチン 状況によって、Talendコンポーネントではプログラミングのニーズを満たせない場合があります。それでも問題はありません。TalendはJavaコードジェネレーターです。キャンバスに配置し、プロセスやデータフローで使用できるPure Javaコンポーネントもあります。それでもニーズに対応できない場合があるはずです。そのようなときには、コードルーチンが役立ちます。これは、プロジェクトリポジトリに追加可能なJavaメソッドです。基本的に、ユーザー定義のJava関数であり、ジョブ内のさまざまな場所で使用できます。 Talendは数多くのJava関数を備えています。すでに使用されていると思います。 getCurrentDate – sequence(String seqName, int startValue, int step) – ISNULL(object variable) ジョブ、プロジェクト、ユースケースの全体像を考えた場合、コードルーチンにはさまざまな用途があります。ここで基本となるのは、再利用可能なコードです。それには、汎用な方法でジョブを合理化できるコードルーチンを作成することを、常に念頭に置く必要があります。適切なコメントを指定すれば、関数を選択する際に役立つテキストとして表示されます。 リポジトリスキーマ プロジェクトリポジトリのMetadataセクションでは、再利用可能なオブジェクトを作成することが可能です。これは、重要な開発ガイドラインですね。リポジトリスキーマは、ジョブで再利用可能なオブジェクトを作成する強力な手法です。以下が含まれます。 – ファイルスキーマ – さまざまなフラットファイル形式のマッピングに使用します。 Delimited Positional RegEx XML Excel JSON – 汎用スキーマ – さまざまなレコード構造のマッピングに使用します。 – WDSLスキーマ – Webサービスメソッド構造のマッピングに使用します。 – LDAPスキーマ […]


データ統合市場の現状を理解する

  データ統合市場は、時として理解しにくいことがあります。 多くの企業が競合しており、それぞれが市場に対して独自のアプローチを持っています。 42ページにわたるGartner社の『Gartner Magic Quadrant for Data Integration(データ統合に関するマジッククアドラント)』は市場を徹底的に分析していますが、このようなレポートでは環境を大局的にとらえにくい場合があり、 内容を入念に吟味することで興味深いパターンを見てとることができます。 私がレポートを検討したところ、ベンダーを クロスエンタープライズ、統合スペシャリスト、ニッチプレイヤーの3つのカテゴリーに大別できました。 興味深いことに、レポートで調査対象となっている企業の過半数(14社中8社)がスペシャリストのカテゴリーに属します。 これは、IDC社の調査で、企業が提供する統合ソリューションの種類が平均4つであることが明らかになった理由の1つであると思われます。 Gartner社の評価には多くの変数が使用されていますが、各ベンダーの「強み」と「注意点」のセクションで特筆されている事項から、いくつかの変数が重要視されていることがわかります。 1)データ管理機能の範囲:統合方式、データ品質、マスターデータ管理、データガバナンスを含みます。 2)新しいユースケースのサポート:ビッグデータ、クラウド、セルフサービスを含みます。 3)市場プレゼンス:市場及び世界でどの程度広く採用されているかを意味します。 4)実装リソースの利用可能性:統合パートナーを含みます。 5)製品の品質、信頼性、マニュアル類、及びサポート 6)価格、複雑さ、及び総所有コスト これらの項目を下敷きとして、データ統合ソリューションの評価で考慮すべき基本事項のチェックリストを作成できます。 ダウンロード>> 『2016 Gartner Magic Quadrant for Data Integration Tools』を入手 ここでは、市場を以下のように分類します。 ニッチプレイヤー ニッチプレイヤーのActian社、Adeptia社、Information Builders社は、それぞれが従来のデータ統合のユースケースに対応する堅固な製品を提供していますが、市場プレゼンスとデータ管理機能の範囲の両方が欠けています。 これらの企業は、いずれも高い顧客満足を実現しており、サポート対象のユースケースについて十分な対応能力を持ちます。 統合スペシャリスト 統合スペシャリストに分類されるプレイヤーは多様で、当然予想される企業も意外な企業も含まれています。 下記のベンダーには、Denodo社、Attunity社、SynSort社のようなスペシャリストと並んで、「リーダー」クアドラント3社(Oracle社、SAP社、SAS社)と「チャレンジャー」クアドラント1社(Microsoft社)も含まれます。 これは、これらの企業が広範なソリューションスタックを提供しているとは言え、既存のエコシステム内で主に使用され、クロスエンタープライズベンダーのより幅広いソリューションに比べて一般的にユースケースが限定的であるためです。 • Attunity社:複製と同期 • Cisco社:データ仮想化 • Denodo社: データ仮想化 • SyncSort社:メインフレームのユースケース • Microsoft社:Microsoft環境 • Oracle社:Oracle環境 • SAP社:SAP環境 • […]