Skip to content
Last updated

Treasure Workflowについて

Treasure Workflowは、Treasure Dataだけでなく、AWSやGoogle Cloud Platformなどのさまざまなクラウドインフラストラクチャ全体でタスクをオーケストレーションできるマルチクラウドワークフローエンジンです。Treasure Workflowは、高い評価を受けているオープンソースワークフロープログラムDigdagの機能を拡張および強化しています。

スマートリターゲティング、顧客目標を使用したA/Bテスト、オムニチャネルマーケティングなどのデータアプリケーションの開発には、数百のステップが含まれる場合があり、それぞれに複雑な変換や依存関係が必要になる場合があります。データ管理とコラボレーションに対するこれらの課題は、すぐに煩雑になる可能性があります。

ワークフローを作成して、例えば顧客データに対して効率的なクエリを実行し、オーディエンスの識別、プロファイリング、トラッキングに供給するタスクをスケジュールできます。

組織のデータを統合して整理し、規模に関係なくそのデータ全体でSQL分析を実行し、データを配信するクエリを保存することで再現可能なインサイトを作成します。

機能とメリット

Treasure Workflowを使用すると、以下のことができます:

  • 処理タスクの実行順序を定義するワークフローの作成

  • スケジュールされた処理フローを念頭に置いた設計

  • 簡単なクローン作成、共有、再利用のためのパラメータ化

  • ローカルで開発し、Treasure Dataにプッシュしてスケジュールベースで実行

  • エラー処理の容易な管理

  • TDシステムのほぼすべての部分を操作できるタスクの設定。以下が含まれます:

    • Integrationsを使用したデータバッチジョブのインポート

    • PrestoおよびHiveクエリの実行

    • テーブルの作成または追加

    • 他のシステムへの結果エクスポート

Treasure Dataを使用すると、内部データアプリケーションを作成する能力を向上させ、以下のメリットを得ることができます:

チームの作業の整理

スケジュールされたクエリやCRONジョブの数が増えると、組織が「これは何をしているのか?」を把握することが難しくなります。タスクを整理されたワークフローとプロジェクトに定義できることで、特定のクエリが動作しているコンテキストをすぐに把握できます。

エラー処理の管理と自動通知の確立

お客様のシステムで非常に大きなクエリやスクリプトが動作しているのをよく見かけます。これらは100行、さらには1000行以上になることもあります。これらのSQLクエリでエラーが発生した場合、デバッグが非常に困難になる可能性があります。大きなクエリをより小さな依存クエリのワークフローに分割することで、ロジックのどの部分が壊れているかを把握しやすくなります。

ワークフローの任意の部分が失敗したときに通知を受け取り、迅速に修正できます。また、ワークフローの実行が成功した場合、または指定された時間境界内に完了しなかった場合に通知を受け取るように指定することもできます。

エンドツーエンドのレイテンシの削減

ステップ間の依存関係が適切に維持されていることを確認することで、KPI更新を毎日から毎時、さらに頻繁に削減するなど、ライブデータのユースケースのための処理パイプラインを作成できます。

コラボレーションと再利用性の向上

Treasure Workflowにはパラメータ化が深く組み込まれているため、アナリストとして再利用可能なワークフローテンプレートを作成できます。将来の追加分析にテンプレートワークフローを使用できます。類似のリクエストに対してSQL文を再作成するのをやめ、より簡単な再利用のために作業をテンプレート化し始めましょう。

また、クエリを整理することで、新しい従業員を組織や進行中のプロジェクトにオンボーディングすることがはるかに容易になります。Treasure Workflowを使用してタスクをグループ化できます。新しいコラボレーターは、特定のロジックを掘り下げる前に、クエリの一般的な「理由」をより迅速に理解できます。

Digdag vs Treasure Workflow

Treasure Workflowは現在、基盤となるオープンソースプロジェクトであるDigdagが許可するほとんどの機能を許可しています。ただし、いくつかの例外があります。一部のDigdagオペレーターと機能は、ワークフローをTreasure Workflowクラウド環境に送信するときにまだ有効になっていません。共有処理とローカルディスクが使用されるため、以下のオプションは許可されていません:

  • embulk>:任意のembulkジョブを実行するにはembulk>を使用します。ただし、td_load>を使用してTreasure Dataにバルクデータをインポートできます。

  • download_file:通常、ファイルをローカルにダウンロードするためにtd>や他のオペレーターでdownload_fileパラメータを使用する場合があります。代わりに、通常のTreasure Data結果エクスポート機能を使用できます。

Treasure WorkflowとAudience Studioのプロファイルセット

TD WorkflowはData Workbenchで使用されています。親セグメントを作成する準備として、ソースデータのワークフローを作成できます。その後、Treasure Workflowを使用してセグメントを作成し、予測スコアリングを使用してオーディエンスとセグメントを絞り込み、セグメント化されたデータを他のシステムに送信できます。Treasure Dataは表示できるワークフローを生成します。

はじめに

Treasure Workflowの使い方TD Toolbeltを使用したTreasure Workflowクイックスタート、および用語と概念を参照してください。