Skip to content
Last updated

MongoDB Collections Export Integration

この統合により、TDジョブの結果を既存のMongoDBインスタンスにエクスポートできます。サンプルワークフローについては、Treasure Boxesをご覧ください。

前提条件

  • TD Toolbeltを含むTreasure Dataの基本知識。
  • MongoDBインスタンス
  • Treasure Dataが適切な権限を持っている必要があります。

参照アーキテクチャ

フロントエンドアプリケーションは、Treasure Agentを介してTreasure Dataにデータを収集します。Treasure Dataは定期的にデータに対してジョブを実行し、ジョブ結果をMongoDBコレクションに書き込みます。

例1: ランキング: 「Xのトップ N」は何ですか?

すべてのソーシャル/モバイルアプリケーションは、「Xのトップ N」(例: 今日視聴された映画のトップ5)を計算します。Treasure Dataはすでに生データのウェアハウジングを処理しており、「write-to-mongodb」機能により、Treasure Dataは「トップ N」データの検索も可能にします。

例2: ダッシュボードアプリケーション

データサイエンティストの場合、毎時/毎日/毎月さまざまなメトリクスを追跡し、それらを視覚化を通じてアクセス可能にする必要があります。この「write-to-mongodb」機能を使用することで、プロセスを効率化し、クエリとクエリ結果の視覚化に集中できます。

Treasure Data Integration の静的 IP アドレス

セキュリティポリシーで IP ホワイトリストが必要な場合は、接続を成功させるために Treasure Data の IP アドレスを許可リストに追加する必要があります。

リージョンごとに整理された静的 IP アドレスの完全なリストは、次のリンクにあります: https://api-docs.treasuredata.com/en/overview/ip-addresses-integrations-result-workers/

クエリの定義

  1. Data Workbench > Queriesに移動します。

  2. New Queryを選択します。

  3. クエリを実行して結果セットを検証します。

  1. Output Resultsを選択します。

  1. 出力に使用する外部サービスの既存の認証を選択するか、新しい認証を作成できます。次のいずれかを選択します:

既存の統合を使用

新しい統合を作成

MongoDBへのエクスポート情報を指定します。

フィールド名説明
Hostリモートサーバーのホスト名またはIPアドレス。(MongoDBのセットアップに応じて、複数のIPアドレスを追加できます。)
Usernameリモートデータベースに接続するためのユーザー名。
Passwordリモートデータベースに接続するためのパスワード。
Use TLS?TLS(SSL)を使用して接続する場合は、このボックスをチェックします。
Bypass certificate validations?すべての証明書検証をバイパスする場合は、このボックスをチェックします。
Use Service records?MongoDBクラウドでクラスターを作成する場合に有効にします。有効にすると、hostsの最初のホストのみが使用され、その値はクラスター名である必要があります(例: cluster0.be2g8go.mongodb.net)。
Database nameデータを転送するデータベースの名前(例: your_database_name)。
Table Nameデータを転送するコレクションの名前。
ModeAppend - データベース内の既存のレコードに追加します。このモードはアトミックです。 Replace - 既存のレコードをクエリ結果で置き換えます。このモードはアトミックです。 Truncate - 既存のレコードを切り捨てます。このモードはアトミックです。 Update - 「keys」パラメータで指定された列に重複値を引き起こさない限り、行が挿入されます

統合を使用したActivationの作成

セグメントデータまたはステージをエクスポートするActivationを作成できます。

バッチジャーニーのActivationを作成する必要がある場合は、Creating a Batch Journey Activationを確認してください。

  1. Audience Studioに移動します。
  2. セグメントを選択します。
  3. Create Activationを選択します。

関連項目

MongoDBの統合パラメータ

フィールド名説明
Database nameデータを転送するデータベースの名前(例: your_database_name)。
Table Nameデータを転送するコレクションの名前。
ModeAppend - データベース内の既存のレコードに追加します。このモードはアトミックです。 Replace - 既存のレコードをクエリ結果で置き換えます。このモードはアトミックです。 Truncate - 既存のレコードを切り捨てます。このモードはアトミックです。 Update - 「keys」パラメータで指定された列に重複値を引き起こさない限り、行が挿入されます
Keysキーのカンマ区切りリスト。すべてのキーの値が既存のレコードと一致する場合、そのレコードが置き換えられます。

クエリの例

SELECT * FROM my_table

(オプション) Query Export ジョブをスケジュールする

Scheduled Jobs と Result Export を使用して、指定したターゲット宛先に出力結果を定期的に書き込むことができます。

Treasure Data のスケジューラー機能は、高可用性を実現するために定期的なクエリ実行をサポートしています。

2 つの仕様が競合するスケジュール仕様を提供する場合、より頻繁に実行するよう要求する仕様が優先され、もう一方のスケジュール仕様は無視されます。

例えば、cron スケジュールが '0 0 1 * 1' の場合、「月の日」の仕様と「週の曜日」が矛盾します。前者の仕様は毎月 1 日の午前 0 時 (00:00) に実行することを要求し、後者の仕様は毎週月曜日の午前 0 時 (00:00) に実行することを要求するためです。後者の仕様が優先されます。

TD Console を使用してジョブをスケジュールする

  1. Data Workbench > Queries に移動します

  2. 新しいクエリを作成するか、既存のクエリを選択します。

  3. Schedule の横にある None を選択します。

  4. ドロップダウンで、次のスケジュールオプションのいずれかを選択します:

    ドロップダウン値説明
    Custom cron...Custom cron... の詳細を参照してください。
    @daily (midnight)指定されたタイムゾーンで 1 日 1 回午前 0 時 (00:00 am) に実行します。
    @hourly (:00)毎時 00 分に実行します。
    Noneスケジュールなし。

Custom cron... の詳細

Cron 値説明
0 * * * *1 時間に 1 回実行します。
0 0 * * *1 日 1 回午前 0 時に実行します。
0 0 1 * *毎月 1 日の午前 0 時に 1 回実行します。
""スケジュールされた実行時刻のないジョブを作成します。
 *    *    *    *    *
 -    -    -    -    -
 |    |    |    |    |
 |    |    |    |    +----- day of week (0 - 6) (Sunday=0)
 |    |    |    +---------- month (1 - 12)
 |    |    +--------------- day of month (1 - 31)
 |    +-------------------- hour (0 - 23)
 +------------------------- min (0 - 59)

次の名前付きエントリを使用できます:

  • Day of Week: sun, mon, tue, wed, thu, fri, sat.
  • Month: jan, feb, mar, apr, may, jun, jul, aug, sep, oct, nov, dec.

各フィールド間には単一のスペースが必要です。各フィールドの値は、次のもので構成できます:

フィールド値 例の説明
各フィールドに対して上記で表示された制限内の単一の値。
フィールドに基づく制限がないことを示すワイルドカード '*''0 0 1 * *'毎月 1 日の午前 0 時 (00:00) に実行するようにスケジュールを設定します。
範囲 '2-5' フィールドの許可される値の範囲を示します。'0 0 1-10 * *'毎月 1 日から 10 日までの午前 0 時 (00:00) に実行するようにスケジュールを設定します。
カンマ区切りの値のリスト '2,3,4,5' フィールドの許可される値のリストを示します。0 0 1,11,21 * *'毎月 1 日、11 日、21 日の午前 0 時 (00:00) に実行するようにスケジュールを設定します。
周期性インジケータ '*/5' フィールドの有効な値の範囲に基づいて、 スケジュールが実行を許可される頻度を表現します。'30 */2 1 * *'毎月 1 日、00:30 から 2 時間ごとに実行するようにスケジュールを設定します。 '0 0 */5 * *' は、毎月 5 日から 5 日ごとに午前 0 時 (00:00) に実行するようにスケジュールを設定します。
'*' ワイルドカードを除く上記の いずれかのカンマ区切りリストもサポートされています '2,*/5,8-10''0 0 5,*/10,25 * *'毎月 5 日、10 日、20 日、25 日の午前 0 時 (00:00) に実行するようにスケジュールを設定します。
  1. (オプション) Delay execution を有効にすることで、クエリの開始時刻を遅延させることができます。

クエリを実行する

クエリに名前を付けて保存して実行するか、単にクエリを実行します。クエリが正常に完了すると、クエリ結果は指定された宛先に自動的にエクスポートされます。

設定エラーにより継続的に失敗するスケジュールジョブは、複数回通知された後、システム側で無効化される場合があります。

(オプション) Delay execution を有効にすることで、クエリの開始時刻を遅延させることができます。

ワークフローでのエクスポート結果の設定(オプション)

Treasure Workflow内で、このデータコネクタを使用してデータをエクスポートするように指定できます。

詳細については、Using Workflows to Export Data with the TD Toolbeltを参照してください。

MongoDBのワークフロー例

#Example Worflow
_export:
  result_connector_name: mongodb_connector
  target_database_name: mongodb_database
  target_collection_name: mongodb_collection

+export_to_mongodb:
  td>: your_query.sql
  result_connection: ${result_connector_name}
  result_settings:
    database: ${target_database_name}
    table: ${target_collection_name}
    mode: [append|replace|truncate|update]