これらのTreasure Workflowの前提条件と制限事項を確認して、ワークフローで何ができて何ができないかを理解してください。
Treasure Workflowの作成を開始する前に、Treasure Dataにデータベースとテーブルが必要です。
Treasure WorkflowはDigdagをベースにしていますが、以下の機能はサポートされていません:
td>オペレーターのdownload_fileパラメータによるクエリ結果のローカルダウンロード。代わりに、Treasure Dataの結果エクスポート機能を使用してください
sh>によるシェルスクリプトの実行
rb>によるrubyスクリプトの実行
embulk>による任意のEmbulkジョブの実行(ただし、Treasure Dataへのバルクデータのインポートにはtd_load>を使用できます)
emr>によるAmazon EMRジョブの実行
param_get>によるParamServerからの永続データの取得と、ストアパラメータの値としての設定
param_set>による値のParamServerへの永続データとしての設定
py>は、サポートされている唯一のカスタムスクリプトです。
TD Workflowは、クラウドホスト環境でデータパイプラインを管理するためのスケーラブルで柔軟なソリューションを提供するように設計されています。
最適かつ公平な処理を確保するため、以下の制限があります:
アカウントごとに最大30タスクが同時に実行されます。その他のすべてのタスクはキューに入れられ、先着順で発行されます。
プロジェクトアーカイブの最大サイズは10MBです。
保存されたワークフローは12,000個まで。12,000個を超えると、Workflow UIですべてのワークフローが読み込まれません。ただし、CLI経由では引き続きアクセスできます。
1つのアテンプト内のタスクの最大総数は1,000です。
タスクのフルネームの最大長は640バイトです。
アカウントごとの最大アテンプト数:
US - 200
Tokyo - 200
EU - 300
その他すべての地域 - 100
実行中のタスクが強制終了されるまでの期間は1日(24時間)です。
実行中のアテンプトが強制終了されるまでの期間は7日間です。
td>タスクの最大レスポンスサイズは4MBです。
http>タスクの最大レスポンスサイズは1MBです。
http_call>タスクの最大レスポンスサイズは2MBです。
py>タスク(カスタムスクリプト)の最大出力サイズは、エクスポートされた変数および生成されたタスクを含めて36MBです。
td_for_each>タスクの合計レスポンスサイズは16MBです。
TDコンソールWorkflowのパフォーマンスを向上させるため、以下の制限内に収めるようにしてください:
保存されたワークフロー200個
ワークフロー内のタスク400個
これらの制限は、Treasure Dataの容量構成に変更がある場合、変更される可能性があります。