Treasure Workflowは、Treasure Dataだけでなく、AWSやGoogle Cloud Platformなどのさまざまなクラウドインフラストラクチャ全体でタスクをオーケストレーションできるマルチクラウドワークフローエンジンです。Treasure Workflowは、高い評価を受けているオープンソースワークフロープログラムDigdagの機能を拡張および強化しています。
スマートリターゲティング、顧客目標を使用したA/Bテスト、オムニチャネルマーケティングなどのデータアプリケーションの開発には、数百のステップが含まれる場合があり、それぞれに複雑な変換や依存関係が必要になる場合があります。データ管理とコラボレーションに対するこれらの課題は、すぐに煩雑になる可能性があります。
ワークフローを作成して、例えば顧客データに対して効率的なクエリを実行し、オーディエンスの識別、プロファイリング、トラッキングに供給するタスクをスケジュールできます。


組織のデータを統合して整理し、規模に関係なくそのデータ全体でSQL分析を実行し、データを配信するクエリを保存することで再現可能なインサイトを作成します。
Treasure Workflowを使用すると、以下のことができます:
処理タスクの実行順序を定義するワークフローの作成
スケジュールされた処理フローを念頭に置いた設計
簡単なクローン作成、共有、再利用のためのパラメータ化
ローカルで開発し、Treasure Dataにプッシュしてスケジュールベースで実行
エラー処理の容易な管理
TDシステムのほぼすべての部分を操作できるタスクの設定。以下が含まれます:
Integrationsを使用したデータバッチジョブのインポート
PrestoおよびHiveクエリの実行
テーブルの作成または追加
他のシステムへの結果エクスポート
Treasure Dataを使用すると、内部データアプリケーションを作成する能力を向上させ、以下のメリットを得ることができます:
スケジュールされたクエリやCRONジョブの数が増えると、組織が「これは何をしているのか?」を把握することが難しくなります。タスクを整理されたワークフローとプロジェクトに定義できることで、特定のクエリが動作しているコンテキストをすぐに把握できます。
お客様のシステムで非常に大きなクエリやスクリプトが動作しているのをよく見かけます。これらは100行、さらには1000行以上になることもあります。これらのSQLクエリでエラーが発生した場合、デバッグが非常に困難になる可能性があります。大きなクエリをより小さな依存クエリのワークフローに分割することで、ロジックのどの部分が壊れているかを把握しやすくなります。
ワークフローの任意の部分が失敗したときに通知を受け取り、迅速に修正できます。また、ワークフローの実行が成功した場合、または指定された時間境界内に完了しなかった場合に通知を受け取るように指定することもできます。
ステップ間の依存関係が適切に維持されていることを確認することで、KPI更新を毎日から毎時、さらに頻繁に削減するなど、ライブデータのユースケースのための処理パイプラインを作成できます。
Treasure Workflowにはパラメータ化が深く組み込まれているため、アナリストとして再利用可能なワークフローテンプレートを作成できます。将来の追加分析にテンプレートワークフローを使用できます。類似のリクエストに対してSQL文を再作成するのをやめ、より簡単な再利用のために作業をテンプレート化し始めましょう。
また、クエリを整理することで、新しい従業員を組織や進行中のプロジェクトにオンボーディングすることがはるかに容易になります。Treasure Workflowを使用してタスクをグループ化できます。新しいコラボレーターは、特定のロジックを掘り下げる前に、クエリの一般的な「理由」をより迅速に理解できます。
Treasure Workflowは現在、基盤となるオープンソースプロジェクトであるDigdagが許可するほとんどの機能を許可しています。ただし、いくつかの例外があります。一部のDigdagオペレーターと機能は、ワークフローをTreasure Workflowクラウド環境に送信するときにまだ有効になっていません。共有処理とローカルディスクが使用されるため、以下のオプションは許可されていません:
embulk>:任意のembulkジョブを実行するにはembulk>を使用します。ただし、td_load>を使用してTreasure Dataにバルクデータをインポートできます。download_file:通常、ファイルをローカルにダウンロードするためにtd>や他のオペレーターでdownload_fileパラメータを使用する場合があります。代わりに、通常のTreasure Data結果エクスポート機能を使用できます。
TD WorkflowはData Workbenchで使用されています。親セグメントを作成する準備として、ソースデータのワークフローを作成できます。その後、Treasure Workflowを使用してセグメントを作成し、予測スコアリングを使用してオーディエンスとセグメントを絞り込み、セグメント化されたデータを他のシステムに送信できます。Treasure Dataは表示できるワークフローを生成します。
Treasure Workflowの使い方、TD Toolbeltを使用したTreasure Workflowクイックスタート、および用語と概念を参照してください。