月別: January 2016

Talend Connect 2015: Rethinking Data

The last quarter of 2015 was marked by our 7th annual user conference, Talend Connect. After day one, which focused exclusively on retail partners and integrators, the user conference continued with some 300 participants heeding Talend’s call, including customers, sponsors, exhibitors, journalists and analysts, to name a few. Video>> Talend Connect 2015 Recap Rethinking How […]


3 Cloud Trends to Prepare for in 2016

With the rapid changes to SaaS applications and cloud platforms taking place today, the area of cloud integration is now in constant flux. Years ago, cloud integration used to be seen as a tool that accomplished a simple use case, such as replicating SaaS data to an on-premise database for analytics. However, with the innovations […]


WADL and Swagger United in Apache CXF

A Talend Community Coders post brought to you by: Sergey Beryozkin Who could’ve thought that Swagger and WADL can be real friends ? Both Swagger and WADL are about describing REST APIs and while the former has a definite momentum, the latter has proved to be very capable and helpful to JAX-RS users. The important […]


Talend Joins Google to Propose Dataflow as an ASF Incubator Project

Hadoop and the broader Big Data ecosystem continue to innovate at an incredible rate. By harnessing the power of the community and creating a survival-of-the-fittest competitive landscape, the open-source development approach helps not only fuel the pace of innovation but also drive buyer confidence and market adoption. Open source is also important to a growing […]


My Challenge to Informatica: Let’s Play

You may have read some of the back and forth between Talend and Informatica regarding Talend’s big data speed benchmark against Informatica. While there are several claims and concerns made by each side, Informatica’s chief complaint is that they launched a brand new product in November, after we ran the benchmark.  They claim it’s faster […]


Talend’s Benchmark Against Informatica – Setting the Record Straight

We recently published a benchmark comparing Talend Big Data Platform to Informatica Big Data Edition, showing the performance benefits of our native Apache Spark approach over Informatica’s solution.  Informatica responded with a rebuttal that combines some good points along with some claims that are either misleading or completely false. (Privately, their lawyers also sent a […]


Start Easily Using Apache Spark With Talend 6!

     If you have worked with any type of new software you know those first few moments are always challenging. There’s always that learning curve you have to go through before being able to fully leverage the product’s capabilities. Therefore we understand it’s equally challenging to learn a new development framework, such as Apache […]


ビッグデータプロジェクトを成功させる(そして、落とし穴を避ける)方法

本記事は、Advanced Performance Institute社の創業者兼CEO、Bernard Marr氏によるゲストブログです。 ビッグデータが世界を席巻している中、この「時流に乗る」道を選ばなければ恐竜同様に絶滅するであろう、という文句でこの記事を始めることも可能です。 ここ数年間にビッグデータについて書かれた数百の記事の始まり方も、このようなものでした。 そのような記事の多くは、有益な情報を盛り込んだ素晴らしいものです。 しかし、それは記事の書き出しとしては実に怠惰な方法です。このことは、今この記事を読んでいる皆さんの大部分がすでにご存じかと思います。 そもそも、このことをわかっているからこそ、皆さんは今この記事を読んでいるのではないでしょうか。 そのような文句は、たとえ真実(であり常套句)であったとしても、状況を簡単にとらえすぎています。 真実は、仮に「時流に乗る」ことを選択しても、成功の保証はないということです。 重要なのは「うまく時流に乗る」ことです。それは明白なことに思えるかもしれませんが、多くの企業にとって克服できない障壁となっています。 したがって今回は、一番最初から始め、慎重に検討する必要があるいくつかのステップについて説明します。このような検討の後で、データの収集、アナリストの採用、独自の分散型クラウドストレージインフラストラクチャのセットアップといったことに予算を投じるべきです。 規模の大小を問わず多くの企業が、ビッグデータの誇大な宣伝に流されて陥りやすい落とし穴を回避するうえで、この記事が役に立てば幸いです。 最初に、ビッグデータとは何かという点に触れます。また、ビッグデータは誤解されやすいものでもあるため、それが意味しないものについて理解することも重要です。 この点を単純化しすぎていると思われる方にはお詫びします。しかし、このような誤りは頻繁に見受けられます。 ビッグデータは、単に「量の多いデータ」ではありません。 最も一般的な誤りのいくつかを回避するうえで、これを理解することが鍵となります。 改めて質問します – ビッグデータとは何でしょうか? ビッグデータとは、世界中で増え続けているデータを理解する能力を説明する用語です。 データだけでなく、データの保存と分析に使用される手法やテクノロジーも指します。 ますます、非構造化データ(ビデオ、オーディオ、ソーシャルメディアデータ等、スプレッドシートの行と列にうまく適合しないデータ)と機械生成データ(スマートデバイスやインターネットに接続されたものに由来するデータ)を理解して知見を引き出すことに、特に関係するものになってきています。 この傾向は、今日のデジタル、モバイル、常時接続の世界で急増しているデータがこのような種類のものであるためです。 ビッグデータがどのようなものかについてのさらなる詳細は、こちらをご覧ください。 他にも理由はありますが、特にこの理由から、私自身はビッグデータではなく「スマートデータ」という用語をしばしば使用しています。 つまり、重要なのはサイズではなく、それを使って何をするかということなのです。 ダウンロード >> Apache Sparkと組込み済みのシナリオを使用してTalend Real-Time Big Dataを試用しましょう 最重要ステップ 次に考慮する必要があるのは、そもそもビッグデータを使用する理由が何かという最重要ポイントです。 そして、その答えは「他の皆が使っているから」であってはなりません。 必要となるのは明確なビジネスケースです。 「どのように」そして「なぜ」ビッグデータが企業にとって役立つものであるのかを知る必要があります。 特定の問題を解決するうえで、ビッグデータは 確かに役立つでしょうが、問題の正確な特定が必要です。 以前、小売業の顧客から、推進中のビッグデータプロジェクトでの支援を依頼されたことがあります。 最初のミーティングでプロジェクトの説明を求めたところ、進行中のデータ駆動型プロジェクトが250件以上あるために、すぐには説明できないという返事をされました。 これらのプロジェクトの多くは、特定の問題を解決することを目的としていないか、または、意義を明示できない指標(たとえば、スタッフの欠勤が業績に影響を与えているという証拠がないにもかかわらず、スタッフの病欠が発生しやすい日を予測する等)を変更することに重点を置いていませんでした。 比較的少ない作業を行っただけで、これらのプロジェクトの大部分を切り捨て、明確な変化をもたらす可能性のあるプロジェクトにリソースを割り当てることができました。 つまり、プロジェクトがどのようにビジネスの重要な課題に対応するのか、顧客サービスを向上するのか、または業務効率を高めるのかについて即座に回答できない場合、そのプロジェクトはおそらく時間の無駄です。 正しいデータを見つける このことは、私が強調したい次の落とし穴、 つまり、収集するデータが正しいデータであることを確認する必要があるという点にも関連しています。 あまりにも多くの企業が、「収集可能なデータを全て集めて、その後でどうするか考える」という心積もりでビッグデータの取り組みを始めています。 これではまったく見当違いな方向に進んでしまい、多くの場合は大失敗に終わります。 このやり方には、プロジェクトを頓挫させかせかねない2つの危険性が伴います。 第一に、あまりにもデータが多いために、「木を見て森を見ず」の状態に陥るリスクです。 必要としている知見や変化をもたらす可能性のあるデータに焦点を当てるのではなく、何の役にも立たないと思われるパターンや知見によって気を散らされてしまいます。 […]