Talend Spring '18の新機能

Talend Data Preparationのご紹介

データをさらに活用

クラウド、ビッグデータ、ガバナンスの新しい機能強化によって、チームの能力を飛躍的に向上し、データ駆動型の成果を達成できます。

ストリーミングデータの取り込みが
さらに簡単に

データサイエンティスト、アナリスト、データエンジニアによるストリーミングデータの統合を容易に

サーバーレス
コンピューティング

クラウドデータ処理コストを67%削減

ビッグデータ統合の
高速化

最新テクノロジーでクラウドデータウェアハウスやデータレイクをすばやく構築

Cloud Data Stewardshipの
ご紹介

データを最もよく理解するユーザーが、データのキュレーションと検証をセルフサービスで実行可能に

ストリーミングデータを
逃しません

データサイエンティスト、アナリスト、エンジニア向けに設計されたTalend Data Streamsは、ストリーミングデータの統合を迅速かつ簡単にし、利用しやすくするセルフサービスの無償アプリケーションです。クラウド向けに開発されたシステムは、わずか数分で稼働開始可能です。Apache Beamを活用し、ストリーミング/バッチのパイプライン向けにインターフェイスを一元化し、スキーマオンリード(Schema on Read)方式で新しいデータタイプもストリーミングデータも簡単に取り込みます。組み込みのPythonコーディングコンポーネントにより、パイプライン開発が加速します。さらに、独自のライブプレビューにより、設計の各段階でデータを確認できます。

ウェビナー:データをさらに活用

クラウドデータ処理コストをサーバーレスサービスにより67%削減

サーバーレスサービスに展開し、インフラストラクチャ管理の労力を減らしてデータ駆動型の知見提供に注力できます。Mavenプラグインを使用してDockerをビルドプロセスに簡単に統合し、AWS FargateやAzure Container Instances(ACI)などのサーバーレスサービスに展開できます。秒単位のメータリングと実行の高速化によってデータ処理コストを最大67%削減するとともに、より多くのデータを並行して処理することでパフォーマンスを最大50%向上します。AzureでQuboleとCloudera Altusがサポートされるので、サーバーレスのビッグデータ統合が可能になり、サーバー管理タスクを最小限に抑え、クラウドリソースの規模を自動調整できます。

記事:サーバーレスへの移行をAWS Lambdaで実現

ビッグデータ統合の
高速化

クラウドデータウェアハウスやデータレイクにわたって、より多くのデータをより高速に処理できます。Snowflake向けの新しいELTプッシュダウン機能、Azure Data Lake StoreでのSparkとSpark Streamingの新たなサポート、SAP向けのデータ抽出機能の強化により、知見獲得を加速できます。

TalendはClouderaのダイナミックディストリビューションをサポート(技術プレビュー)しており、TalendをアップグレードすることなくClouderaの最新機能を即座に利用でき、管理に要する時間を数週間~数か月も短縮できます。開発したビッグデータジョブは、オンプレミスまたは任意のクラウドで展開することも、Talend Cloudのマネージドサービスとしても展開することも可能です。

詳細情報:Talend Big Dataの新機能

Talend Cloud Data Stewardshipのご紹介

Talend Cloud Data Stewardshipが、チームベースのセルフサービス型データキュレーションと検証を支援します。データを最もよく理解しているユーザーが、データ整合性の問題を迅速に特定して対応し、解決できるので、データの信頼性を高めることができます。シンプルなWebベースのUIにより、データキュレーションのユーザーロール、ワークフロー、優先順位を定義し、タスクを委任できます。データが置かれたクラウドやロケーションを問わず、あらゆる場所で「データの一貫性」を確立できます。Talend Cloudサービスとして有効にするだけで使用開始でき、インストールは不要です。

(Talend Data Stewardshipは、Talend Cloudアプリとして、またはダウンロード/インストールして稼働するTalendソフトウェアとしてご利用いただけます。)

ウェビナー:チーム主導のデータクオリティとデータスチュワードシップ

機能強化

以下に、Talend Spring '18とTalend Winter '18で導入された新機能をご紹介します。
各リリースおよび製品の内容(ダウンロード用ソフトウェアまたはTalend Cloud)の詳細は、help.talend.comをご覧ください。

ビッグデータ統合
データ統合
データクオリティ
Talend Data Preparation
Talend Data Stewardship
MDM
Talend Data Mapper
ビッグデータ統合 ビッグデータプロジェクトのパフォーマンスと生産性が向上しました。
  • Cloudera CDHのダイナミックディストリビューションの新規サポート(技術プレビュー):TalendをアップグレードせずにHadoopディストリビューションの更新を即座に追加します。
  • SparkジョブをYARNクラスターモードで実行することで、ランタイムでのエッジノードのジョブサーバーを不要にし、展開を簡素化/高速化して単一障害点を排除
  • アプリケーション、データベース、データウェアハウスレベルで、SAPからデータを抽出する機能が飛躍的に向上しました。SAPデータの新しい一括抽出機能を使用すると、ほぼ無制限にデータをSAPから抽出できます。ビジネスコンテンツ抽出ツールを使用して、差分モードで新規または変更済みのパッケージ化済みSAPデータを簡単に抽出できます(技術プレビュー)。SAP向けのELTプッシュダウンのサポートにより、クラウドへのデータ移行前にSAP内でネイティブの処理が可能です。
  • Snowflakeコンポーネントのサポートが強化され、ELTプッシュダウンを実行できます。Snowflakeクラスター上でデータ処理と変換が行われるので、Snowflakeの大規模なパフォーマンスとスケーラビリティを活用した迅速な分析が可能になります。
  • Hadoopのカラムナ(列指向)ストレージマネージャーのCloudera Kuduにデータを取り込んでクエリを実行し、IoT、GDPR、不正検出などの高速データシナリオで迅速な分析を実行できます。高度なチューニングオプションによりパフォーマンスを最適化できます。
  • MapR-DB OJAIサポートにより、高度な階層変換をグラフィカルに実行し、ジョブからMapR-DB OJAIのクエリを実行できます。Web、モバイル、ソーシャル、IoTベースのアプリケーションで高速なパフォーマンスと柔軟性を実現します。
  • IAMロールとセキュアトークンサービスをジョブに使用することで、AWS S3のセキュリティ実装を簡素化します。
  • (現在のAWSに加えて)AzureのCloudera AltusでTalendワークロードを実行します。
  • Microsoft Azure Data Lake StoreでのSparkとSpark Streamingのサポートにより、より多くのデータをより高速に処理できます。
  • Hive QueryでアプリケーションIDを追跡して、Talend/Hiveジョブの管理を向上できます。
  • HbaseでRow Keyを取得・設定できるので、Hbaseのベストプラクティスを活用して時系列データの処理が可能になります。
データ統合 生産性が向上し、プロジェクトセキュリティが強化されました。
  • ジョブサーバーについては、以下のセキュリティと生産性の機能が強化されました。
    • ロールベースのセキュリティ:Studioを使用する開発者は許可されたプロジェクトに属するジョブのみを実行できます。
    • ジョブサーバーのデータクレンジング機能が強化され、アクティブな実行中のジョブや、リンクされた依存関係/ライブラリを対象から除外できます。
    • スケジュールとエラー処理の機能向上により、使用できないジョブサーバー、重み付けラウンドロビン負荷分散を使用する仮想ジョブサーバーでタスクを再起動できます。
  • Talend Administration Center(TAC)については、以下の機能が強化されました。
    • Ping Identity PingFederate ServerとMicrosoft Active Directory Federation Serviceのサポートを含む、シングルサインオン(SSO)のオプションが追加されました。
    • 監査とセキュリティログにより状況を可視化し、アクセス権限、変更、構成変更を含むすべてのユーザー操作をトレースできます。
    • 監査ログの構成とアクセスのための新しい監査者ロールが設けられ、これによって一層強力なセキュリティが提供されます。
  • 無償のテストエンジン、ビッグデータジョブのリモートデバッグ機能、Talend Cloud EngineまたはRemote Engineでのジョブのデバッグ機能により、Talend Cloudでのテストとデバッグに要する時間が数分から数秒へと短縮されました。
  • StudioでのMaven標準を使用するインクリメンタルビルドを含む継続的な統合機能の更新、Bitbucket Server 5.xを含む広範なGitサポート、Talend Artifact Repository向けのNexus 3のサポート、データ統合、アプリケーション統合のための標準Mavenコマンド(技術プレビュー)、MavenプラグインとカスタムPOM(プロジェクトオブジェクトモデル)を使用してビルドプロセスを簡単に拡張する機能が提供されます。
  • カスタムのTalendコンポーネントを構築して生産性を向上できます。Talend Component Kitで開発したものを、すべてのTalend製品および統合スタイルで、バッチからリアルタイムへ、データ統合からビッグデータへ、オンプレミスからクラウドへと再利用できます。
  • ファジーマッチングのためのデータクオリティアルゴリズム(Levenshtein、Jaccard)により、名前が類似するカラムをSmart tMap Fuzzy Auto-mappingにより自動的にマッチングして、時間を短縮できます。
  • ELTMapによりランタイムでテーブル名を変更する機能、およびスキーマの変更に適応する新しいルーチンにより、ジョブ設計の柔軟性と生産性が向上します。
データクオリティ クラウドとオンプレミスのデータがビジネスで活用される過程において、データの完全性の保持を強化します。
  • サバイバーシップルールが向上し、カラム単位でのサポートが可能になったことで、保持したいマスター値を細かく制御できるようになりました。
  • 新しいコンポーネントのtPatternMaskingが追加されたことにより、プライバシーとセキュリティのコントロールのためにマスキングパターンの新しいタイプを定義できます。
  • Dictionary ServiceのUIを使用してセマンティックタイプをインポート/エクスポートすることにより、環境間でセマンティックタイプのプロモーションを容易に管理できます。
  • Talend Dictionary Service REST APIが公開され、Swaggerによって自己文書化されています。データ/アプリケーションの統合シナリオでTalend Dictionary Serviceを活用し、プログラムを使用してTalend Dictionary Serviceを追加できます
  • Dictionary Service UIにフランス語のサポートが追加されました。
Talend Data Preparation 大規模なデータプレパレーションで最高のユーザーエクスペリエンスを提供します。
  • Cloud Dictionary Serviceを使用して、お使いのデータ向けに新しいビジネス用語を定義できます。これにより、ユーザーとコンピューターの両方によるデータの理解と利用が促進されます。
  • RedshiftとSnowflakeのセルフサービスコネクターによる接続オプションが追加されました。
  • Talendジョブでプレパレーションを動的に選択できるので、メンテナンスと生産性が向上します。
  • 基本的な重複除外、データ辞書による標準化、フィル入力、シーケンス生成、パーセンテージ管理を含む新しいデータプレパレーション機能により、柔軟性が向上しました。
  • CSVファイルのカスタムエンクロージャーとエスケープ文字がサポートされるようになりました。したがって、CSVファイルが非標準の場合や複雑な場合でも、Talend Data Preparationで処理する前にファイルを標準化する必要がありません。
  • UIで日本語とフランス語のサポートが追加されました。
Talend Data Stewardship データ整合性に関する問題をすばやく特定して対応し、解決できます。
  • Talend Cloud Data Stewardshipにより、データを最もよく理解しているユーザーの力を活用できます。チームベースのセルフサービス型データキュレーションと検証を支援するこのアプリにより、データ整合性の問題を迅速に特定して対応し、解決できます。
  • Cloud Dictionary Serviceを使用して、お使いのデータ向けに新しいビジネス用語を定義できます。これにより、他のユーザー(ユーザーとコンピューターの両方)によるデータの理解と利用が促進されます。
  • Talend Data StewardshipのUIからキャンペーンやデータモデルを直接インポート/エクスポートできるようになりました。これにより、異なる環境にわたって構成のプロモーションを簡単に管理し、ITポリシーに容易に準拠できます(ダウンロード用ソフトウェアのみ)。
  • UIに日本語とフランス語のサポートが追加されました。
MDM マスターデータの設計、オーサリング、キュレーション、更新が高速化されます。
  • ライセンスとIDがTalend Administration Centerを介して管理されるようになり、セキュリティが強化されます。
  • Talend Data PreparationとTalend Data Stewardshipでシングルサインオンが可能になり、時間が節約されます。
  • REST APIが強化されました(IN演算子)。
  • MDMの統合マッチングで、サバイバーシップルールがカラム単位でサポートされます。
  • ログイン/ログアウトや構成の展開を含むすべてのユーザー操作を監査して、セキュリティのコンプライアンスを確保できます。
Talend Data Mapper 複雑なマッピングのパフォーマンスを向上します。
  • Kafka(tKafkaOutput)やKinesis(tKinesisOutput)などの複雑な階層構造について、tHMapRecordが受信に加えて出力キューに送信できるようになりました。
  • tHMapが単一の入力から複数の出力を作成できるようになり、生産性が向上しました。
  • upper-case、lower-case、translate、containsを含む新しい変換言語および式言語関数が追加されました。
  • 階層データとフラットレコードの間での変換が改善しました。

統合範囲を拡張

Talendの各製品に含まれるコンポーネントの詳細は、help.talend.comをご覧ください。

新規および更新Hadoopディストリビューション

  • Amazon EMR 5.8
  • Cloudera CDH 5.12、5.13
  • MapR 6.0
  • Spark 2.2

新規および更新コンポーネント

  • Amazon S3
  • Cloudera Kudu
  • Couchbase
  • FTP
  • Hbase
  • Hive
  • MapR-DB OJAI
  • Marketo
  • Marklogic
  • Microsoft Azure Data Lake Store
  • Microsoft Dynamics CRM 2016(オンプレミス版)
  • MongoDB
  • Neo4J
  • Oracle Cloud
  • SAP Business Suite
  • SAP Hana
  • SAP s/4Hana
  • Snowflake
  • Sybase
  • Vertica